La evaluación es un aspecto esencial del entrenamiento de un modelo de IA, ya que evalúa su rendimiento, la calidad de las respuestas, la confiabilidad, la ética, etc. Por lo general, se requiere una evaluación humana en el desarrollo de LLM. Sin embargo, los investigadores del equipo de Meta sobre IA (llamado FAIR) están desarrollando evaluadores de autoaprendizaje para LLM. Tienen publicó un artículo de su trabajo y explicar su enfoque.

Como se ha indicado, el uso de datos anotados por humanos está muy presente en el ámbito de la evaluación. Puede ser directo con un humano que analiza los resultados del LLM o mediante la técnica llamada LLM como juez, que utiliza un modelo para calibrar las respuestas del modelo de IA (a partir de un dato x propone una preferencia por la respuesta que sea la mejor A o B). Pero aquí también, este proceso se entrena con grandes cantidades de datos anotados por humanos lo que lo hace costoso y los datos se vuelven obsoletos a medida que el modelo mejora, subrayan los investigadores.

El LLM optimizado como enfoque de juez

Así, utilizaron el LLM como juez, pero le proporcionaron solo datos sintéticos y “ningún dato anotado por humanos”. Los investigadores comenzaron con un modelo de semilla y utilizaron ingeniería de indicaciones para generar pares de preferencias sintéticas (A o B) a partir de una entrada dada. El modelo se entrenó de forma iterativa sin necesidad de instrucciones de etiquetas. La etiqueta es la respuesta esperada del LLM. Puede ser una palabra en un texto que se elimina durante la fase de entrenamiento. “Dadas las instrucciones sin etiquetas, nuestro esquema de automejora iterativa generó resultados de modelos contrastantes y entrenó a un LLM como juez para producir razonamiento inicial y juicios finales. Este entrenamiento se repitió utilizando las predicciones mejoradas en cada iteración”, explica el equipo de Meta FAIR. Finalmente, los investigadores obtuvieron “un LLM superior como juez, a partir del cual podemos iterar todo el proceso para que se mejore a sí mismo”.

En sus experimentos, afirmaron en el artículo que sin ningún dato de preferencia etiquetado, el evaluador de autoaprendizaje mejoró la puntuación de Llama3-70B-Instruct de 75,4 a 88,3 puntos en la herramienta de evaluación comparativa RewardBench. Dijeron que este cambio de puntuación supera al LLM comúnmente utilizado como juez, como GPT-4, y está en línea con el rendimiento de los modelos de recompensa de mejor rendimiento (utilizados en el refuerzo supervisado). Sin embargo, los investigadores también notaron que este enfoque tiene algunas limitaciones. No lo probaron en modelos más pequeños (sus modelos de prueba tenían 70 mil millones de parámetros) y no consideraron los requisitos computacionales, solo la precisión. Otra limitación es que el modelo de partida utilizado "ya estaba razonablemente alineado con las preferencias humanas (o legales/políticas)".