Tras la ola de LLM (modelo de lenguaje grande), las empresas están recurriendo a modelos más pequeños y ligeros para realizar tareas específicas de forma más rápida y eficiente. Los editores de modelos de IA lo han entendido bien y están multiplicando los anuncios sobre SLM (modelo de lenguaje pequeño). En este contexto, Nvidia y Microsoft acaban de hacer anuncios en este ámbito.
Un SLM Mistral y Nvidia
Nvidia presentó el Mistral-Nemo-Minitron 8B que es una versión reducida del modelo de lenguaje Mistral Nemo 12B. Este último fue desarrollado en colaboración con la startup francesa Mistral AI. El SLM presentado utiliza dos técnicas de aprendizaje automático conocidas como poda y destilación. El primer método es una forma de reducir los requisitos de hardware de un modelo eliminando componentes innecesarios de su código. Una red neuronal consta de neuronas artificiales basadas en código, cada una de las cuales realiza un conjunto relativamente simple de cálculos. Algunas partes del código desempeñan un papel menos activo que otras en el procesamiento de las solicitudes de los usuarios. Por lo tanto, se pueden eliminar sin reducir significativamente la calidad de los resultados de la IA.
Después de reducir el tamaño de Mistral Nemo 12B, Nvidia pasa a la secuencia de destilación. Se trata de un proceso mediante el cual los desarrolladores transfieren conocimientos de una IA a una segunda red neuronal más eficiente en términos de hardware. En este caso, el segundo modelo fue el Mistral-NeMo-Minitron 8B presentado hoy, que tiene 4 mil millones de parámetros menos que el original. Este enfoque, en comparación con el entrenamiento de un modelo desde cero, ofrece una mayor calidad de los resultados de la IA. Destilar un modelo grande en un modelo más pequeño también es más económico, porque la tarea no requiere tantos datos de entrenamiento. En una publicación de blog, Nvidia señala que con la combinación de las dos técnicas, el modelo Mistral-NeMo-Minitron 8B es "lo suficientemente pequeño como para ejecutarse en una estación de trabajo equipada con Nvidia RTX y, al mismo tiempo, destaca en muchos puntos de referencia para chatbots, asistentes virtuales, generadores de contenido y herramientas educativas impulsados por IA".
Microsoft amplía su familia Phi 3
El pasado mes de abril, Microsoft presentó su oferta SLM con un modelo llamado Phi-3 miniLa editorial acaba de enriquecer su pequeño catálogo de modelos con tres versiones bajo licencia MIT : Phi 3.5-MoE-instruct, Phi 3.5-mini-instruct y Phi 3.5-vision-instruct. El primero es un modelo liviano creado a partir de conjuntos de datos utilizados para los datos sintéticos Phi-3 y documentos filtrados disponibles públicamente, con un enfoque en datos de muy alta calidad y densos en razonamiento. El modelo ofrece soporte multilingüe y viene con 128K de longitud de contexto (en tokens).
El modelo Mini-Instruct es una actualización de la versión Phi-3 Mini, que se lanzará en junio de 2024, según los comentarios de los usuarios, según ha indicado la compañía. Tiene 3.800 millones de parámetros y presume de un mejor rendimiento que sus competidores Llama 3.1 8B y Mistral 7B. Por último, la firma de Redmond ha presentado Phi 3.5-Vision-Instruct, con 4.200 millones de parámetros. Está muy centrado en el reconocimiento de imágenes al integrar un codificador, un conector y un proyector de imágenes. Todos los modelos de Microsoft y Nvidia están disponibles en Hugging Face.
Otras noticias que te pueden interesar