La mayoría de las compañías ahora se centrarían en dos categorías de casos generativos de uso de IA, que probablemente ofrecerán al mejor rey, si crecemos a Doug Shannon, un experto en embajador en automatización e IA a la firma de Gartner. Gestión del conocimiento (KM) Por un lado, modelos RAG (generación de recuperación aumentada) por el otro. "Sin embargo, en ambos casos, la compañía opera sus propios datos, que tienen un costo", insiste a Doug Shannon. En particular, la mala gestión de datos en estos dos tipos de proyectos puede degradar al rey y aumentar los costos. Este es el caso, por ejemplo, para la corrección de las alucinaciones, causada por datos de baja calidad, que requieren recursos financieros y con tiempo. Sin embargo, algunos gerentes de TI logran dejar el juego al enfocarse en tres pilares de la gestión de datos.
Recopilar, filtrar y clasificar
El primero consiste en una serie de procesos, la recopilación, filtrado y categorización de datos. Para los modelos KM o RAG, esto representa hasta varios meses de trabajo. De hecho, estos procesos son bastante simples de implementar cuando solo procesa datos estructurados, pero es bastante diferente con los no estructurados, sin embargo, los datos más preciosos. "Es solo después de haber definido e integrado estos datos no estructurados en una taxonomía que puede explotarse", continúa Doug Shannon.
Algunas herramientas de mercado ofrecen filtrado, ya sea para eliminar las PII (información identificable por la personalidad) o la información considerada tóxica para un campo particular. Permiten fijar los umbrales o, durante el proceso de combinación, reorganizar las cantidades de datos afectados a las diferentes categorías en cuestión (30% de 15-25 años y 15% en 65 años, por ejemplo, o para un módulo de capacitación, 20% de empleados de apoyo y 25% previa). El proceso de filtrado y iterativo tiene como objetivo obtener una mayor calidad de datos relacionados con el campo en el que la empresa trabaja y el contexto; Una respuesta precisa para las finanzas, por ejemplo, puede ser completamente incorrecta para la atención médica. También es una forma de identificar las señales correctas y generar tipos de datos similares para fortalecer la importancia de estas señales.
Gobernanza y conformidad
Como recuerda Klara Jelinkoa, vicepresidente y DSI de la Universidad de Harvard, "muchas organizaciones se han basado en DataWareHauses o informes de datos estructurados, pero muchas ahora están dirigiendo a DataSakes y Data Fabric. El hecho es que cuanto más se producen los conjuntos de datos con AI generativo, más difícil es difícil garantizar la calidad y la coherencia de estos datos. Para resolver este problema, cuanto más sean los conjuntos de datos y la Avalización de los datos más difíciles de garantizar la calidad y la consistencia de estos datos. Para resolver este problema, cuanto más sean los conjuntos de datos y la Autorización de los datos más difíciles de garantizar la calidad de los datos. controles.
El segundo pilar de la gestión de datos adaptado al Genai está en la gobernanza y la conformidad de los datos. En 2023, el departamento de TI de Harvard lanzó, por ejemplo, AI Sandbox, un entorno de IA generativo desarrollado internamente y puesto a disposición de su comunidad de usuarios. Sandbox proporciona acceso a varios LLM diferentes para promover la experimentación. El Departamento de TI de Harvard también ha implementado programas de innovación abiertos a todos los proyectos utilizando Genai.
Repensar la gobernanza de los datos no estructurados
Procedimientos que llevaron a Klara Jelinkova a trabajar en el gobierno de datos. "Comenzamos con las directivas genéricas para usar IA, solo para asegurarnos de que teníamos las salvaguardas necesarias. Ya habíamos implementado el gobierno de datos durante mucho tiempo. Pero cuando comienza a hablar sobre tuberías automatizadas, por ejemplo, rápidamente se hace obvio que los antiguos modelos de gobernanza deben volver a ser repensados, principalmente construidos en torno a datos estructurados.» »
Otra área importante vinculada al gobierno, el cumplimiento. Harvard tiene, por ejemplo, un grupo de trabajo para monitorear la Ley Europea de AI. Todos los proyectos de IA, antes de su producción, siguen un proceso para garantizar que se cumplan todas las obligaciones de cumplimiento. Para el CIO universitario, es necesario tener un marco de conformidad para reelaborar lo existente como la evolución del panorama legislativo ".
Confidencialidad de datos y protección de propiedad intelectual
Tercer y último pilar de gestión de datos adaptado al Genai, la confidencialidad y la protección de la propiedad intelectual. Al buscar en sus datos los proyectos de Genai, algunas compañías se dan cuenta, por ejemplo, que no saben en detalle los controles de acceso asociados con algunos de ellos. Esto significa que no tienen idea de los datos que se han compartido dentro de la empresa, o incluso con el exterior.
Harvard tiene un programa de seguridad de datos completo que integra la clasificación de datos para diferentes tipos de IA. "Estamos muy atentos a la propiedad intelectual", dice Klara Jelinkova. "Cuando recopilamos datos para diseñar la enseñanza con AI, debemos asegurarnos de tener todos los derechos de propiedad intelectual sobre todos los datos que les proporcionaremos".
Y debido a que Harvard crea, como la mayoría de las universidades, una gran parte de su propia propiedad intelectual, también debe garantizar que lo proteja. Es bastante simple con herramientas de IA creadas internamente. Pero cuando se utilizan modelos públicos, se deben tomar medidas adicionales para que los datos de la propiedad intelectual no se usen directa o indirectamente con fines comerciales. Para asegurarse, Harvard establece protecciones contractuales con editores de tercera parte.
"Cuando usa sus propios datos dentro de modelos de cimientos muy grandes, resulta que todavía hay muchos malentendidos y poca transparencia en lo que realmente se hace de sus datos", concluye Doug Shannon. "Microsoft usa Openai nuevamente, por ejemplo. Entonces, incluso cuando dicen que no usan datos de usuario y le dan una larga lista de acciones contra las cuales se supone que debe estar protegido, esto sigue siendo una caja negra.»
Otras noticias que te pueden interesar