Ladrillos de datos continúa desarrollándose en IA generativa. El especialista en Lakehouse acaba de anunciar la adquisición de Okera, una plataforma de gobernanza de datos centrada en la inteligencia artificial (IA). El objetivo es ampliar sus propias capacidades de gobernanza y cumplimiento para el aprendizaje automático y la IA LLM (modelo de lenguaje grande). Las dos empresas no revelaron los términos del acuerdo; sin embargo, según Crunchbase, Okera recaudó poco menos de 30 millones de dólares en su última ronda de financiación. Los inversores incluyen Felicis, Bessemer Venture Partners, Cyber ​​​​Mentor Fund, ClearSky y Emergent Ventures.

Garantizar la seguridad y confidencialidad de los datos

La plataforma de Okera protege los datos mediante inteligencia artificial que puede descubrir, clasificar y etiquetar datos confidenciales. Luego, los desarrolladores o administradores utilizan una interfaz sin código para aprovechar estas etiquetas para producir políticas de acceso y proporcionar mayor transparencia y control sobre los datos. Okera también ofrece tecnología que aísla las cargas de trabajo sin afectar el rendimiento. Esto permite que se ejecuten varios LLM simultáneamente sin mezclar conjuntos de datos ni compartir o revelar accidentalmente información potencialmente confidencial entre modelos de IA.

"Fundamos Okera para ayudar a las empresas basadas en datos a impulsar el acceso a los datos mientras minimizan los riesgos de seguridad y garantizan el cumplimiento normativo", explica Nong Li, cofundador y director ejecutivo de Okera. “Muchas empresas no tienen suficientes perfiles técnicos para aprobar políticas de acceso a escala, en particular con la explosión de los LLM. Lo que necesitan es una solución de gobernanza moderna impulsada por la IA”.

Enfrentando nuevos desafíos con IA generativa

La reciente aparición de modelos de IA generativa como ChatGPT de OpenAI ha conquistado al mundo. A esto siguió una ola de interés por parte de empresas que ahora desean integrarlos en su SI. Al mismo tiempo, crece la preocupación por la seguridad y privacidad de los datos de formación utilizados por los LLM. De hecho, este último debe memorizar grandes conjuntos de datos y restaurarlos inmediatamente. Esto significa que pueden explotar y revelar información confidencial fácilmente.

En el pasado, las empresas controlaban el acceso a sus datos con controles sencillos a un solo nivel, como una base de datos SQL, por ejemplo. Siempre que los datos provinieran de allí, era sencillo crear reglas para procesar consultas SQL de manera eficiente. "El auge de la IA, en particular los modelos de aprendizaje automático y los LLM, hace que este enfoque sea insuficiente", afirma Databricks. El editor subraya así que la aparición de estos modelos conlleva un aumento exponencial del número de fuentes de datos que las empresas deben gestionar. “Los datos utilizados por la IA son, de hecho, generados por máquinas y no por humanos” y la definición de reglas en este contexto tiene dificultades para seguir el rápido desarrollo de la IA. Según el editor, "los desafíos de gobernanza específicos de estos modelos de IA, como la identificación de fuentes y la lucha contra los sesgos, superan con creces las capacidades de las plataformas tradicionales de gobernanza de datos".

El equipo de Okera, incluido su cofundador y director ejecutivo, se unirá a Databrick. Este último es particularmente conocido por haber desarrollado Apache Parquet, un formato de datos de código abierto orientado a columnas que permite la recuperación eficiente de datos almacenados, en el que han confiado Databricks y muchas otras empresas de software.

Dolly 2.0, el LLM creado por Databricks

Finalmente, Databricks creó recientemente su propio LLM especializado en código abierto, llamado Dolly 2.0. Un sistema de 12 mil millones de parámetros basado en la familia de modelos pythia de EleutherAI y ajustado exclusivamente en un conjunto de datos de seguimiento de instrucciones de alta calidad generado por humanos. Todo el modelo es de acceso abierto, incluido el código de entrenamiento, el conjunto de datos y los pesos del modelo, “todos aptos para uso comercial”, especifica el proveedor en un comunicado de prensa. En pocas palabras, cualquier empresa puede crear, poseer y personalizar LLM, sin tener que pagar por el acceso a la API ni compartir datos con terceros.

La compañía dijo que tiene la intención de integrar las capacidades de Okera en su Catálogo Unity. Esto permitirá a las empresas aprovechar el sistema impulsado por IA de Okera para brindar a sus clientes clasificación y gobernanza de todos sus datos.