El año 2023 ha estado marcado por el auge de los modelos de IA generativa que se presentan como abiertos. Pero, ¿qué significa este término en el contexto de la inteligencia artificial? Esta es la compleja pregunta a la que intenta dar respuesta un estudio realizado por dos investigadores del Centro de Estudios del Lenguaje de la Universidad de Nijmegen (Países Bajos). Identifican 14 criterios diferentes para definir el grado de apertura de un modelo. Un conjunto de expectativas, que van desde los conjuntos de datos de entrenamiento hasta los métodos de acceso, pasando por la documentación y la concesión de licencias, que los aproximadamente 45 modelos supuestamente de código abierto que examinan los dos investigadores están lejos de respetar.

“Aunque el término open source se utiliza ampliamente, muchos modelos son, en el mejor de los casos, 'pesos abiertos' y muchos proveedores intentan evadir el escrutinio científico, legal y regulatorio ocultando información sobre los datos de entrenamiento y ajuste”, escriben los autores Andreas Liesenfeld y Mark Dingemanse. El término 'pesos abiertos' enmascara una definición más restrictiva de transparencia que el código abierto, ya que los 'pesos' en cuestión se refieren a los pesos de una red neuronal resultante de ciclos de entrenamiento sobre los datos. Pesos que no son legibles para humanos ni depurables. El término 'pesos abiertos' se refiere, por tanto, a la disponibilidad de estos pesos para su uso o modificación. Pero deja sin aclarar muchos otros aspectos de la construcción de modelos, señalan los autores del estudio, que lo ven como una forma de 'openwashing', una referencia al greenwashing.

Meta, Google, Microsoft y Mistral entre los malos estudiantes

Clasificados en tres familias (disponibilidad, documentación y acceso), los 14 criterios revelan diferencias flagrantes entre modelos que se presentan todos como abiertos. De los 40 generadores de texto estudiados, algunos se acercan a ser modelos completamente abiertos, como OLMo Instruct, de AllenAI, BloomZ o AmberChat, de LLM360. "Las organizaciones detrás de estos sistemas han hecho un gran esfuerzo para poner a disposición datos de entrenamiento, código, canales de entrenamiento y documentación", subrayan los autores del estudio.

Evaluación de unos cuarenta modelos de generadores de texto. Algunos, que se proclaman abiertos, tienen características cercanas a las del opaco ChatGPT.

Un tercio de los modelos simplemente revelan sus pesos (open weight), "pero comparten pocos o ningún detalle sobre otras partes del sistema". La conclusión de los autores es clara: "en comparación con la filosofía muy cerrada de ChatGPT de OpenAI, algunos de estos sistemas son apenas más abiertos". Entre estos modelos de bajo rendimiento se encuentran todos los principales actores del mundo comercial, incluidos Meta, Google, Cohere, Microsoft y Mistral. Llama 3 de Meta no cumple ninguno de los 14 criterios definidos por los investigadores. Mistral-7B-Instruct de la empresa homónima solo cumple tres.

50 sombras de código abierto

"La falta de transparencia en lo que respecta a los datos de entrenamiento es particularmente preocupante. La mayoría de los modelos en la mitad inferior [du classement fourni dans l'étude, NDLR] "No se proporcionan más detalles sobre los conjuntos de datos que descripciones muy genéricas, aparentemente para evitar cualquier escrutinio legal", observan Andreas Liesenfeld y Mark Dingemanse. Cuando se trata de generadores de imágenes, la conclusión es aún más rápida. Solo un modelo cumple la mayoría de los criterios (Difusión estable), mientras que los demás cumplen dos o tres como máximo.

El estudio de los dos investigadores También se destaca la naturaleza específica de la apertura de los LLM. “La apertura en IA generativa es necesariamente compuesta (compuesta por varios elementos) y gradual”, argumentan los autores del estudio, para quienes basarse en una o varias características específicas, como las características de acceso a la tecnología o la licencia, para declarar abierto o no un modelo sería un error. Los dos investigadores abogan por un sistema de puntuaciones o etiquetas que reflejen el grado de apertura de cada LLM.

Leer sobre el mismo tema:
- 10 aspectos a tener en cuenta en el caso de la IA generativa de código abierto