El entusiasmo y la admiración en torno a la IA generativa han disminuido un poco. Los grandes modelos de lenguaje de “propósito general” como GPT-4, Gemini (antes Bard) y Llama producen oraciones inteligentes, pero su escaso conocimiento del dominio, sus alucinaciones, su falta de inteligencia emocional y su ignorancia de los acontecimientos actuales pueden dar lugar a terribles sorpresas. En realidad, la IA generativa ha superado nuestras expectativas… hasta el punto de que necesitamos que sea fiable, no solo divertida.

En respuesta, han surgido programas de máster en áreas específicas, con el objetivo de proporcionar respuestas más creíbles. Algunos ejemplos de estos programas de máster “especializados” son LEGAL-BERT para derecho, BloombergGPT para finanzas y Med-PaLM de Google Research para medicina. La pregunta que queda es cuál es la mejor manera de crear e implementar estos programas de máster especializados. La respuesta podría tener ramificaciones para todo el sector de la IA generativa, un campo que hasta ahora ha sido rico en valoraciones altas pero pobre en ganancias debido a los costos monumentales de desarrollar programas de máster generalistas o especializados.

Para especializar los LLM, los desarrolladores de IA suelen recurrir a dos técnicas clave: el ajuste fino y la generación aumentada por recuperación (RAG). Pero cada una de estas técnicas tiene limitaciones que han dificultado el desarrollo de LLM especializados a un coste razonable. Sin embargo, estas limitaciones también han permitido el desarrollo de nuevas técnicas que podrían cambiar la forma en que especializamos los LLM en el futuro cercano.

La especialización es cara

En la actualidad, los programas de máster más exitosos son generalistas, y los mejores especialistas comienzan como generalistas y luego perfeccionan. Este proceso es similar al de un estudiante de humanidades que obtiene un título de posgrado en STEM (ciencia, tecnología, ingeniería y matemáticas). Y, al igual que los programas de posgrado, este perfeccionamiento requiere mucho tiempo y es costoso. Es un cuello de botella en el desarrollo de la IA generativa, porque pocas empresas tienen los recursos y el conocimiento para construir modelos generalistas desde cero. Piense en un LLM como una gran bola de números que encapsula las relaciones entre palabras, frases y oraciones. Cuanto mayor sea el corpus de datos textuales detrás de esos números, mejor parece funcionar el LLM. Por ejemplo, un LLM con un billón de parámetros tiende a superar a un modelo con 70 mil millones de parámetros en términos de consistencia y precisión.

Para perfeccionar un LLM, ajustamos la bola numérica o añadimos un conjunto de números complementarios. Por ejemplo, para convertir un LLM de generalista a especialista legal, podríamos proporcionarle documentos legales y respuestas correctas e incorrectas sobre esos documentos. El LLM perfeccionado sería más capaz de resumir documentos legales y responder preguntas sobre ellos.

Dado que un proyecto de ajuste fino con GPU Nvidia puede costar cientos de miles de dólares, los LLM especializados rara vez reciben capacitación más de una vez por semana o por mes. Como resultado, rara vez están actualizados con los últimos conocimientos y eventos en su campo.

Si existiera una manera sencilla de especializar un modelo, miles de empresas podrían entrar en el mercado de los LLM, lo que aumentaría la competencia y la innovación. Y si hiciera que la especialización fuera más rápida y barata, tal vez los LLM especializados podrían actualizarse continuamente. El RAG es casi ese atajo. Casi, porque también tiene sus limitaciones.

Aprendiendo de RAG

Los LLM siempre van un paso por detrás del presente. Si le pidiéramos a un LLM que nos contara sobre hechos recientes que no haya asimilado durante su formación, se negaría a responder o tendría alucinaciones. Si sorprendiera a una clase de estudiantes de informática con preguntas de examen sobre un tema desconocido, el resultado sería similar. Algunos no responderían y otros inventarían respuestas que consideraran razonables. Por otro lado, si les diera a los estudiantes una introducción a este nuevo tema en el texto del examen, podrían aprender lo suficiente para responder correctamente.

En resumen, este es el principio mismo de RAG. Introducimos una indicación y luego le damos al LLM información adicional y relevante con ejemplos de respuestas buenas y malas para "aumentar" lo que generará. El LLM no estará tan bien informado sobre el tema como un modelo que se haya beneficiado de un ajuste fino específico, pero RAG puede permitirle a un LLM actualizarse a un costo mucho menor.

Sin embargo, hay varios factores que limitan lo que los LLM pueden aprender a través de RAG. El primer factor es la asignación de tokens. Con los estudiantes universitarios, solo puedo introducir cierta cantidad de información nueva en un examen cronometrado sin abrumarlos. De manera similar, los LLM tienden a tener un límite, generalmente entre 4k y 32k tokens por solicitud, lo que limita la cantidad de información que un LLM puede asimilar sobre la marcha. El costo de usar un LLM también se basa en la cantidad de tokens, por lo que es mejor ser frugal con su presupuesto de tokens para controlar el costo general de usar IA generativa.

RAG: atención a la experiencia del usuario

El segundo factor limitante es el orden en el que se presentan los ejemplos de RAG al LLM. Cuanto antes se introduce un concepto, más atención le presta el LLM. Aunque un sistema puede reordenar automáticamente las indicaciones de aumento, aún existen limitaciones de tokens, lo que potencialmente obliga al sistema a pasar por alto o restar importancia a hechos importantes. Para abordar este riesgo, podríamos escribir indicaciones ordenadas de tres o cuatro maneras diferentes para ver si la respuesta es consistente. En este punto, sin embargo, estamos obteniendo rendimientos decrecientes en términos de tiempo y recursos computacionales.

El tercer desafío es implementar el método RAG sin degradar la experiencia del usuario. Si una aplicación es sensible a la latencia, el método RAG puede ser un verdadero obstáculo. En comparación, el ajuste fino tiene un efecto mínimo en el rendimiento. Para utilizar la comparación de los estudiantes, es la diferencia entre conocer ya la información y leer sobre ella antes de diseñar una respuesta.

Una opción para superar estas limitaciones es combinar técnicas: primero, perfeccionar un LLM y luego usar RAG para actualizar el conocimiento o hacer referencia a información privada (por ejemplo, propiedad intelectual corporativa) que no se puede confiar a un modelo disponible públicamente. Si bien el perfeccionamiento es permanente, RAG le otorga a un LLM un conocimiento temporal, lo que evita que las preferencias y el material de referencia de un usuario "recableen" involuntariamente un modelo completo.

Alinear los límites del ajuste fino y el RAG ayuda a aclarar la pregunta abierta de la IA, mencionada al principio. Se trata de: ¿cómo especializar los LLM a un menor costo y más rápido sin sacrificar el rendimiento en los límites de tokens, teniendo en cuenta el orden rápido y la sensibilidad a la latencia?

Hacia grupos especializados de LLM

Uno de los puntos conflictivos que enfrentan las empresas con la IA generativa es la capacidad de desarrollar LLM especializados que brinden respuestas confiables de nivel experto en dominios específicos a un costo razonable. El ajuste fino y la RAG pueden ayudar a lograr esto, pero a un costo demasiado alto. Por lo tanto, consideremos una posible solución. ¿Qué sucedería si (en su mayoría) prescindiéramos del entrenamiento de modelos de propósito general, especializáramos múltiples LLM con parámetros de bajo nivel y luego aplicáramos la RAG?

En esencia, esto es como tomar una clase de estudiantes de humanidades (una educación multidisciplinaria), reducir su programa de licenciatura de cuatro años a uno y luego enviarlos a obtener títulos de posgrado relacionados. Luego enviaríamos nuestras preguntas a algunos o todos estos especialistas. Crear y mantener este panel de especialistas sería menos costoso computacionalmente. En comparación con las habilidades humanas, el principio es que cinco abogados con cinco años de experiencia cada uno son más confiables que un solo abogado con 50 años de experiencia. Aunque menos experimentado, nuestro panel probablemente generó una respuesta correcta si hay un amplio consenso entre sus miembros.

Reducir las alucinaciones por el colectivo

Estamos empezando a ver pruebas en las que varios LLM especializados colaboran en el mismo tema. Hasta ahora con bastante éxito. Por ejemplo, el LLM Mixtral, un modelo de código especializado diseñado por la francesa Mistral, utiliza una arquitectura (SMoE, Sparse Mixture-of-Experts) basada en 8 LLM expertos independientes.

El uso de grupos de LLM también elimina la aleatoriedad inherente al uso de un solo LLM. La probabilidad de que un LLM alucine es relativamente alta, pero la probabilidad de que cinco LLM alucinen al mismo tiempo es mucho menor. Y siempre existe la posibilidad de aprovechar el RAG como complemento, para compartir nueva información. Si el enfoque del panel de modelos funciona, las pequeñas empresas podrían darse el lujo de desarrollar LLM especializados que superen a sus contrapartes perfeccionadas y sigan aprendiendo sobre la marcha del RAG.

Para los estudiantes de humanidades, la especialización temprana puede ser problemática. El conocimiento generalista suele ser esencial para comprender material avanzado y ubicarlo en un contexto más amplio. Por el contrario, los LLM especializados no tienen las responsabilidades cívicas, morales o familiares que tienen los seres humanos. Especializarlos a una edad temprana sin preocuparse por las deficiencias que esto podría generar se convierte en una opción.

RAG como etapa final de especialización

Hoy en día, el mejor enfoque para la formación de un LLM especializado es perfeccionar un modelo generalista. El RAG puede aumentar temporalmente el conocimiento de un LLM, pero debido a las limitaciones impuestas por los tokens, el conocimiento adicional que aporta sigue siendo superficial.

Pronto podremos prescindir de la formación de modelos generales y desarrollar conjuntos de LLM más especializados y computacionalmente eficientes, que a su vez podrán ser mejorados por el RAG. Ya no dependeremos de LLM generales con capacidades extraordinarias para generar contenido. En cambio, obtendremos el equivalente del conocimiento colectivo de varios investigadores jóvenes bien formados. Si bien debemos tener cuidado de no antropomorfizar los LLM ni atribuir cualidades similares a las de las máquinas a los humanos, hay paralelismos que vale la pena establecer. Sería arriesgado depender de una sola persona, una sola fuente de información o un solo foro para formar nuestro conocimiento, así como es arriesgado depender de un solo LLM para obtener respuestas precisas.

Por el contrario, hacer una lluvia de ideas con 50 personas, leer 50 fuentes de noticias o consultar 50 foros genera demasiado ruido (y demasiado trabajo). Lo mismo ocurre con los LLM. Probablemente exista un punto intermedio entre utilizar un único modelo generalista y depender de demasiados especialistas. Todavía no sabemos dónde se encuentra ese equilibrio, pero una vez que se establezca, el RAG resultará incluso más útil de lo que es ahora.

El autor, Jignesh Patel, es cofundador de DataChat y profesor en la Universidad Carnegie Mellon.

Además :
- Laurence Devillers: “La IA generativa no produce ni pensamiento, ni intención, ni emoción”
- El medio ambiente, el punto ciego del auge de la IA generativa
- Cómo Crédit Agricole, Veolia y Club Med integran la IA generativa en el entorno de trabajo
- TotalEnergies perfecciona sus resultados de investigación con el RAG