Los grandes modelos de lenguaje de código abierto, que siguen siendo una minoría en el mercado de LLM, suelen ser apreciados por sus usuarios más por sus capacidades de personalización y control (seguridad y confidencialidad de los datos) que por su rendimiento. Pero ¿por qué no lograr unir lo mejor de ambos mundos? Un desafío que Inteligencia artificial Mistral La startup francesa, que se ha lanzado al mercado de la IA, ha querido estar a la altura de las circunstancias con su modelo Mixtral 8x22B, la última creación de la start-up francesa en materia de LLM de código abierto tras Mistral 7B y Mixtral 8x7B. "Establece un nuevo estándar de rendimiento y eficiencia dentro de la comunidad de IA", afirma. avance Mistral AI. “Es un modelo de mezcla dispersa de expertos (SMoE) que utiliza solo 39 mil millones de parámetros activos de 141 mil millones, lo que ofrece una relación costo-beneficio inigualable para su tamaño”.
Mistral AI ha publicado elementos comparativos de rendimiento con sus dos modelos anteriores de código abierto y el de Meta (Llama2 70B) pero no con otros LLM propietarios (Google Gemini AI, OpenAI GPT, Anthropic Claude...). Una situación que la comunidad ha subsanado publicando datos adicionales sobre Hugging Face. "Los resultados parecen estar más cerca de los modelos cerrados desarrollados por Google y OpenAI", resumen Saptorshee Nag, redactora de contenido técnico en la plataforma de tutoría en línea FavTutor. “Las primeras reacciones de la comunidad de IA han sido en gran medida positivas. Muchos están entusiasmados con los nuevos usos y la investigación innovadora que permitirá Mixtral 8x22B”.
Evaluación comparativa de las capacidades del Mixtral 8x22B LLM de Mistral AI con otros modelos de lenguaje comerciales o de código abierto importantes. (crédito: Hugging Face)
Un LLM bastante bueno en cálculo y razonamiento.
La startup afirma que su LLM tiene capacidades de llamada de funciones nativas (útiles para desarrollar aplicaciones a gran escala) y una ventana emergente de token de 64K para recuperar información precisa de documentos grandes. "Mixtral 8x22B es el modelo de código abierto más potente con significativamente menos parámetros que sus competidores y supera a Llama 2 70B en la mayoría de los puntos de referencia con una inferencia 6 veces más rápida". asegurar El editor.
Mistral AI explica que Mixtral 8x22B es adecuado para tareas intermedias que requieren un razonamiento moderado, como la extracción de datos, la elaboración de resúmenes de documentos, la redacción de descripciones de puestos de trabajo o de productos, y que habla con fluidez inglés, francés, italiano, alemán y español. Pero también tiene buenas habilidades matemáticas y de codificación. "Mixtral 8x22B obtiene una buena puntuación de 76,5 [sur le critère GSM8K]"Pero una vez más se queda atrás de las familias GPT, Claude y Gemini. Puedes usar Mixtral para problemas matemáticos normales y promedio, pero prefieres Claude y Gemini para problemas complejos que requieren mayores capacidades de procesamiento", matiza Saptorshee Nag.
Al igual que los demás LLM de código abierto de Mistral AI, Mixtral 8x2B es de pago: 1,9 €/1 millón de tokens en entrada y 5,6 €/1 millón de tokens en salida. Precios mucho más altos que los de open-mixtral-8x7b, de 0,65 €/1 millón de tokens tanto en entrada como en salida.
Otras noticias que te pueden interesar