Con Claude, Anthropic no pretende quedarse atrás en la carrera por el rendimiento en términos de grandes modelos lingüísticos junto a Llama de Meta, GPT de OpenAI, Gemini de Google o Large de Mistral AI... El proveedor ha anunciado así el lanzamiento de las últimas iteraciones de su LLM Claude 3, la más eficiente de las cuales, Opus, está disponible al mismo tiempo que Sonnet y Haiku.

Según Anthropic, la variante Opus supera a sus competidores en la mayoría de los criterios de evaluación, incluidos el conocimiento experto de primer ciclo (MMLU), el razonamiento experto de segundo ciclo (GPQA) y las matemáticas básicas (GSM8K). "Muestra niveles de comprensión y fluidez casi humanos para tareas complejas, lo que lo coloca a la vanguardia de la inteligencia general". Incluso la empresa avanza.

Claude 3 Opus antrópico

Comparación del desempeño de diferentes LLM. (crédito: Anthropic)

Claude se vuelve multimodal con imágenes

Los LLM de Claude 3 pueden manejar una amplia gama de formatos visuales, incluidas fotos, tablas, gráficos y diagramas técnicos. “Estamos particularmente entusiasmados de ofrecer esta nueva modalidad a nuestros clientes empresariales, algunos de los cuales tienen hasta el 50% de sus bases de conocimiento codificadas en varios formatos, como archivos PDF, diagramas de flujo o diapositivas de presentaciones”, afirma Anthropic. Para manejar de manera efectiva los mensajes contextuales largos, el editor también afirma que ha desarrollado una evaluación de “aguja en un pajar” para medir la capacidad de un modelo para recordar con precisión la información de un gran conjunto de datos.

"Mejoramos la solidez de este punto de referencia utilizando uno de los 30 pares aleatorios de aguja/pregunta por indicación y probando en un corpus diverso de documentos de la comunidad. Claude 3 Opus no solo logró una recuperación casi perfecta, superando el 99% de precisión, sino que en algunos casos incluso identificó las limitaciones de la evaluación en sí misma al reconocer que la oración parecía haber sido insertada artificialmente en el texto original por un humano". Entre sus casos de uso, Anthropic cita 3: automatización de tareas (planificación y ejecución de acciones complejas en API y bases de datos, codificación interactiva), I+D (revisión de investigaciones, lluvia de ideas y generación de hipótesis, descubrimiento de fármacos) y estrategia (análisis avanzado de cuadros y gráficos, tendencias financieras y de mercado, pronósticos). El costo de la versión Opus es de $15 por millón de tokens de entrada y $75 por millón de tokens de salida. El tamaño de la ventana de consulta es de 200.000 tokens.