La startup de inteligencia artificial xAI de Elon Musk no pierde el tiempo. Unas pocas semanas después de anunciar la última versión 1.5 de su gran modelo de lenguaje GrokLa joven empresa presenta esta vez su primer LLM multimodal, que ofrece capacidades de procesamiento mejoradas y resolución de tareas más complejas, incluso en lo que respecta a imágenes, documentos, fotografías o incluso diagramas y gráficos. "Estamos especialmente entusiasmados con la capacidad de Grok para comprender nuestro mundo físico. Grok supera a sus competidores en nuestro nuevo benchmark RealWorldQA, que mide la comprensión espacial del mundo real", afirma xAI. En una publicación de blog.

Para respaldar sus afirmaciones, xAI revela los resultados de su propia comparación interna en la que se evalúa el rendimiento de Grok 1.5 Vision con otros LLM multimodales como GPT-4V (Open AI), Claude 3 Sonnet y Opus (Anthropic) y Gemini Pro 1.5 (Google). Los resultados son prometedores, pero desiguales: en TextVQA (lectura de textos), Grok 1.5V se impone, aunque por muy poco en comparación con GPT-4V, es decir, un 78,1 % frente a un 78 %. Por otro lado, en la comparación de DocVQA, el LLM multimodal de xAI se queda por detrás de Claude 3 Sonnet (85,6 % frente a 89,5 %), que todavía muestra un margen de mejora significativo respecto a la competencia.

Diseñado para la comprensión del mundo real

En lo que respecta al benchmark RealWorldQA (comprensión del mundo real) especialmente diseñado por xAI, Grok 1.5V obtiene un 68,7%, en comparación con el 67,5% de Gemini Pro 1.5, el 61,4% de GPT-4V y el 51,9% de Claude 3 Sonnet. “La versión inicial de RealWorldQA incluye más de 700 imágenes, con una pregunta y una respuesta fácilmente verificable para cada imagen. El conjunto de datos consta de imágenes anónimas tomadas en vehículos, así como otras imágenes del mundo real”, explica la startup. Cabe señalar que el editor ofrece su conjunto de datos a la comunidad, disponible Descargable bajo licencia Creative Commons.

Grok 1.5V estará disponible próximamente para los actuales usuarios y testers de Grok. Mientras tanto, la joven compañía aprovecha para anunciar que tiene previsto realizar mejoras significativas en los próximos meses en cuanto a comprensión multimodal y capacidades de generación de su modelo en cuanto a imágenes, audio y vídeo. Y para indicar que recluta en muchos campos (ingenieros e investigadores de IA, ingenieros de datos y rastreo web, ingenieros web full stack o incluso ingenieros frontend y diseñadores UI/UX)...