Durante los últimos meses, el equipo de Machine Learning Foundations de microsoft La investigación ha publicado un conjunto de modelos de lenguaje pequeño (SLM) llamado Phi. Estos logran un rendimiento notable en una variedad de puntos de referencia. El primer modelo, el Phi-1 de 1.300 millones de parámetros, logró el máximo rendimiento en la codificación Python entre los SLM existentes (especialmente en los puntos de referencia HumanEval y MBPP). Posteriormente, el equipo de investigación amplió el alcance al razonamiento de sentido común y la comprensión del lenguaje y creó otro modelo de 1.300 millones de parámetros llamado Phi-1.5, cuyo rendimiento es comparable al de modelos 5 veces mayores, afirman.

Hoy, el equipo presentó Phi-2un modelo de lenguaje de 2.7 mil millones de parámetros con lo que los investigadores llaman capacidades de "razonamiento y comprensión del lenguaje excepcionales", todo con un rendimiento líder entre los modelos de lenguaje centrales de menos de 13 mil millones de parámetros. ajustes. "En pruebas comparativas complejas, Phi-2 iguala o supera a modelos hasta 25 veces más grandes, gracias a nuevas innovaciones en el escalado de modelos y la curación de datos de entrenamiento", añaden. Phi-2 está especialmente dirigido a investigadores, en particular para explorar la interpretabilidad mecanicista, mejorar la seguridad o perfeccionar la experimentación en una variedad de tareas. Phi-2 está disponible en el catálogo de plantillas de Azure AI Studio, se especifica.

Índice
  1. Phi-2 se codea con Mistral (7B) y Llama-2
  2. La calidad de los datos es esencial para el desarrollo de dicho modelo.

Phi-2 se codea con Mistral (7B) y Llama-2

Phi-2 es un modelo basado en Transformer con un objetivo de predicción de la siguiente palabra, entrenado en tokens de 1,4T de múltiples pases en una combinación de conjuntos de datos sintéticos y web para PNL y codificación. El entrenamiento de Phi-2 duró 14 días en 96 GPU A100. Los investigadores precisan que este modelo básico no ha sido objeto de “alineamiento mediante aprendizaje reforzado a partir de retroalimentación humana (RLHF), ni de ajuste fino de la instrucción”. Sin embargo, se observó una reducción del sesgo en comparación con el modelo Phi-1.5.

Luego se llevaron a cabo varios puntos de referencia para medir el rendimiento de Phi-2 frente a modelos de lenguaje populares. Los puntos de referencia cubren varias categorías, a saber, Big Bench Hard (BBH), razonamiento con sentido común, comprensión del lenguaje, matemáticas y codificación (HumanEval, MBPP). En codificación, Phi-2 supera con creces a los modelos Mistral y Llama-2 con 7 mil millones de parámetros (53,7 frente a 39,4 y 21,0). El modelo también supera al Llama-2-70B, 25 veces más grande, en tareas de codificación y está por detrás del Llama-2-70B en matemáticas. Los dos modelos están empatados en el razonamiento de sentido común, mientras que la comprensión del lenguaje proporciona una ventaja a Llama-2-70B. Además, Phi-2 iguala o supera al recientemente anunciado Google Gemini Nano 2 (parámetros 3,2 B).

Rendimiento promedio en pruebas comparativas agrupadas frente a modelos populares de lenguajes pequeños de código abierto. (Crédito: Microsoft)

La calidad de los datos es esencial para el desarrollo de dicho modelo.

A través de este conjunto de modelos Phi, los investigadores quieren entrenar SLM que alcancen rendimientos comparables a los de modelos a escala mucho mayor (pero aún lejos de los modelos fronterizos). Queriendo "romper las leyes convencionales de escalar modelos de lenguaje", el equipo de investigadores llegó a las siguientes conclusiones. Primero, la calidad de los datos de entrenamiento juega un papel fundamental en el rendimiento del modelo. “Nuestra combinación de datos de entrenamiento contiene conjuntos de datos sintéticos creados específicamente para enseñar al modelo razonamiento con sentido común y conocimientos generales, incluida la ciencia, las actividades cotidianas y la teoría de la mente, entre otros. Completamos nuestro corpus de formación con datos web cuidadosamente seleccionados y filtrados en función de su valor educativo y la calidad de su contenido”, describen. "En segundo lugar, estamos utilizando técnicas innovadoras para ampliar la escala, empezando por nuestro modelo de 1.300 millones de parámetros, Phi-1,5, e integrando su conocimiento en el modelo de 2.700 millones de parámetros Phi-2". Una transferencia de conocimientos a gran escala que no sólo acelera la convergencia de la formación, sino que también mejora significativamente los resultados de la prueba Phi-2.