Con la IA, siempre es temporada de LLM. Después de abrir las compuertas de un gran modelo de lenguaje multimodal GPT-4o en primavera, IA abierta anuncia su versión mini a mediados de verano. Un anuncio importante a ojos del padre de ChatGPT que indica que GPT-4o mini ya se anuncia como su modelo pequeño que ofrece la mejor relación rendimiento/coste. Si GPT-4o es más rápido y más barato que GPT-4 Turbo, por su parte GPT-4o mini es más eficiente y más barato que GPT-3.5 Turbo. "GPT-4o mini obtiene una puntuación del 82% en MMLU y actualmente supera a GPT-4 en preferencias de chat en el benchmark LMSYS. Su precio es de 15 céntimos por millón de tokens de entrada y 60 céntimos por millón de tokens de salida, un orden de magnitud más asequible que los modelos fronterizos anteriores y más de un 60% más barato que GPT-3.5 Turbo", explica OpenAI. Como era de esperar, GPT-4o mini es superado en todos los benchmarks por GPT-4o, pero este último no se ofrece en absoluto al mismo precio.

“GPT-4o mini supera a GPT-3.5 Turbo y otros modelos pequeños en los puntos de referencia académicos tanto en inteligencia de texto como en razonamiento multimodal, y admite la misma gama de lenguajes que GPT-4o. También demuestra excelentes capacidades de llamada de funciones, lo que permite a los desarrolladores crear aplicaciones que recuperan datos o realizan acciones con sistemas externos, así como un mejor rendimiento en contextos largos en comparación con GPT-3.5 Turbo”, afirma OpenAI.

Miniprueba de rendimiento OpenAI GPT-4o

Evaluación del rendimiento del GPT-4 mini de OpenAI en comparación con dos modelos de la competencia y dos modelos OpenAI más antiguos. (crédito: OpenAI)

GPT-3.5 reemplazado por GPT-4o mini en ChatGPT

En concreto, GPT-4o mini sale mejor parado que otros modelos pequeños de la competencia en tareas de razonamiento que involucran tanto texto como visión. Así, obtiene una puntuación del 82,0% en MMLU frente al 77,9% de Gemini Flash y el 73,8% de Claude Haiku. En cuanto a sus capacidades de razonamiento matemático, aquí también destaca el vástago de OpenAI con una puntuación en MGSM del 87% frente al 75,5% de Gemini Flash y el 71,7% de Claude Haiku. En cuanto al rendimiento del código (HumanEval), GPT-4o mini muestra un resultado del 87,2% frente al 71,5% y el 75,9% de sus dos competidores. Este último modelo también destaca en MMMU (razonamiento multimodal), con una puntuación del 59,4% frente al 56,1% de Gemini Flash y el 50,2% de Claude Haiku.

Tenga en cuenta que en las versiones gratuita, plus y para equipos de ChatGPT, los usuarios pueden acceder a GPT-4o mini ahora y como reemplazo de GPT-3.5. Los usuarios empresariales tendrán que esperar hasta la próxima semana para acceder a él.