Después habiendo recaudado 105 millones de euros el pasado mes de junioMistral AI ofrece su primer modelo de lenguaje grande, llamado Mistral 7B. El número y la letra corresponden a la cantidad de hiperparámetros utilizados por el modelo, es decir, 7 mil millones. Los fundadores Arthur Mensch, Guillaume Lample y Timothée Lacroix (antes de DeepMind y Meta) han trabajado duro para presentar este primer trabajo, inicialmente previsto para principios de 2024.

La startup ofrece su LLM en modo de código abierto bajo la licencia Apache 2.0. Es posible descargarlo directamente (archivo de 13,5 GB) o implementarlo en instancias de nube pública (AWS/GCP/Azure), así como en la plataforma Hugging Face. Con 7 mil millones de parámetros, Mistral 7B no pretende competir con GPT-3.5 o 4 de OpenAI, ni con Palm 2 de Google, pero sí con pequeños LLM como Llama 2 (13B) o 1 (34B), así como con Code. Llama de Meta.

Puntos de referencia y optimizaciones prometedores

La empresa ha realizado varios benchmarks sobre determinados puntos: conocimiento, razonamiento, comprensión, matemáticas, etc. Y los resultados dan una ventaja al Mistral 7B en términos de precisión. La misma observación para el modelo Mistral Instruct 7B entrenado para chatear con conjuntos de datos disponibles en HuggingFace. Este modelo “es una rápida demostración de que el modelo básico se puede ajustar fácilmente para obtener prestaciones convincentes”, subraya la start-up.

Para crear Mistral 7B, la joven empresa pudo contar con el apoyo de CoreWeave, un proveedor de nube orientado a la IA con instancias HGX H100 de Nvidia, pero también con los recursos del equipo de CINECA/EuroHPC y, en particular, de los operadores de Leonardo. (supercomputadora con sede en Italia).