Los grandes modelos de lenguaje, disponibles en su mayoría en código abierto, pueden ser manipulados en todas las direcciones por investigadores de todos los ámbitos. Un equipo de Microsoft Se ha lanzado al agua y ha revelado su trabajo sobre un pequeño modelo de lenguaje (también conocido como SML) desarrollado a partir del 7B de la start-up Mistral AI. Este modelo, llamado Orca-Math, se ha beneficiado de configuraciones y personalización con una relación rendimiento-precisión muy interesante. "Orca-Math alcanza un 86,81% en GSM8k pass@1, superando el rendimiento de modelos mucho más grandes, incluidos los modelos generales (p. ej. LLAMA-2-70, Gemini Pro y GPT-3.5) y los modelos específicos de matemáticas (p. ej. MetaMath-70B y WizardMa8th-70B). Cabe señalar que el modelo base (Mistral-7B) alcanza un 37,83% en GSM8K", anunciar Los investigadores.

En su opinión, el rendimiento de este SML se puede explicar por dos factores. En primer lugar, sobre un entrenamiento de datos sintéticos que comprende 200.000 problemas matemáticos, creados mediante multiagentes (AutoGen). Este número es inferior al de otros conjuntos de datos matemáticos, que pueden contener millones de problemas, pero como el modelo y el conjunto de datos son más pequeños, el entrenamiento es más rápido y menos costoso. Y además del ajuste supervisado tradicional, Orca-Math se entrenó mediante un proceso de aprendizaje iterativo para practicar la resolución de problemas y seguir mejorando en función de los comentarios de los investigadores.

Modelos pequeños adaptados a necesidades verticales.

"Nuestros resultados muestran que los modelos más pequeños son útiles en contextos especializados, donde pueden igualar el rendimiento de modelos mucho más grandes, al tiempo que resaltan el potencial del aprendizaje continuo y el uso de la retroalimentación para mejorar los modelos lingüísticos", afirman los investigadores. "Estamos poniendo el conjunto de datos a disposición del público, junto con un informe que describe el procedimiento de entrenamiento, para fomentar la investigación sobre la mejora y especialización de los modelos lingüísticos pequeños". Estos están disponibles respectivamente aquí Y a esto otra dirección.