Mistral AI ha lanzado un gran modelo de lenguaje de 123 mil millones de parámetros llamado Mistral Large 2 (ML2), consolidando su posición como un competidor importante de OpenAI, Anthropic y Meta. presione soltar, La empresa afirma que ML2 tiene una ventana emergente de 128k y es compatible con docenas de idiomas, incluidos francés, alemán, español, árabe, chino, japonés y coreano. También es compatible con más de 80 idiomas, incluidos Python, Java, C, C++, JavaScript y Bash. Este anuncio se produce después de que Presentación de Meta de la familia LLM Llama 3.1que incluye el modelo más avanzado, el 405B. Meta afirma que sus modelos también cuentan con una longitud de contexto de 128K y soporte para ocho idiomas. El lanzamiento de Large 2 fue filtrado por Google Cloud el miércoles, que lo había mencionado en su Última colaboración con la start-up francesa.

La semana pasada, OpenAI ha lanzado GPT-4o miniSu modelo de IA pequeña más asequible. Inteligencia artificial Mistral Según los puntos de referencia, ML2 tiene un rendimiento similar al de los modelos líderes, como GPT-4o, Claude 3 Opus y Llama 3 405B, en áreas como la codificación y el razonamiento. En el popular punto de referencia MMLU, ML2 obtuvo una puntuación del 84 %, mientras que Llama 3.1 405B obtuvo una puntuación del 88,6 % y GPT-4o una puntuación del 88,7 %. GPT-4o mini obtuvo una puntuación del 82 %. Los modelos de IA de Mistral están disponibles en Vertex AI, Azure AI Studio, Amazon Bedrock e IBM watsonx.ai, afirmó la empresa.

Índice
  1. Principales atractivos para las empresas
  2. ¿Límites transformados en obstáculos?

Principales atractivos para las empresas

Los analistas señalan que la batalla de la IA se ha desplazado hacia los modelos conversacionales y multimodales, cada uno de los cuales se esfuerza por sobresalir en matemáticas complejas, razonamiento avanzado y generación de código eficiente. Según Neil Shah, socio y cofundador de Counterpoint Research, los principales actores de la IA, como Mistral AI, se están centrando en reducir las alucinaciones, mejorar las capacidades de razonamiento y optimizar la relación rendimiento-tamaño de sus modelos. “Aquí es donde Mistral Large 2 sobresale en términos de rendimiento frente a tamaño, requiriendo solo 246 GB de memoria con una precisión total de 16 bits durante el entrenamiento”, dijo Shah. “El tamaño más pequeño de Mistral Large 2 en comparación con la competencia, al tiempo que mantiene una mayor precisión, es ventajoso para las empresas. Les permite producir respuestas contextuales más precisas y concisas más rápido que otros modelos más grandes, que requieren más memoria y computación”.

Además, las empresas que dependen en gran medida de Java, TypeScript o C++ se beneficiarán del rendimiento y la precisión superiores en la generación de código que afirman los puntos de referencia de Mistral, agregó Shah. Los modelos de código abierto como el de Mistral también pueden permitir a los usuarios crear LLM especializados adaptados a industrias o ubicaciones específicas, según Faisal Kawoosa, analista principal de Techarc. "Este tipo de LLM especializados surgirán con el tiempo", dijo Kawoosa. "Si bien la IA generativa es útil, en muchos casos, se requiere una comprensión especializada del dominio, que solo se puede lograr mediante la creación de tales LLM. Por lo tanto, es crucial tener una plataforma de código abierto que no solo proporcione LLM para usar modelos de IA, sino que también permita modificarlos y expandirlos para crear estas plataformas muy específicas". » Charlie Dai, vicepresidente y analista principal de Forrester, también señaló que las capacidades avanzadas de generación de código, matemáticas, razonamiento, rendimiento y rentabilidad de Mistral LLM-2 (diseñadas para ejecutarse de manera eficiente en un solo nodo H100), junto con su soporte multilingüe y disponibilidad en las principales plataformas de nube, mejorarán significativamente su competitividad para los clientes empresariales en sus iniciativas de IA.

¿Límites transformados en obstáculos?

Un problema potencial para los usuarios es que Mistral distribuye ML2 bajo la Licencia de Investigación Mistral (MRL), que permite el uso y la modificación solo para fines de investigación y no comerciales. Para el uso comercial que requiere la autoimplementación, los usuarios deben obtener una licencia comercial Mistral independiente de la empresa. “Dado que Mistral AI ha tenido que incurrir en importantes costes de datos y formación para Large 2, la empresa ha limitado correctamente el alcance del uso comercial sin licencia al exigir una licencia comercial estricta, lo que aumenta el precio y podría ser una barrera”, dijo Shah. “Esto puede ser una barrera en algunas áreas, como los mercados emergentes”.

Prabhu Ram, vicepresidente de investigación industrial en Cybermedia Research, agregó que si bien la inteligencia artificial de Mistral ha demostrado ser prometedora, aún persisten algunas preocupaciones, en particular en torno a la transparencia de los datos, la interpretabilidad de los modelos y el riesgo de sesgo, que siguen siendo áreas críticas para la mejora.