Unas horas antes de la conferencia para desarrolladores I/O de Google, IA abierta ha lanzado una oferta gratuita llamada GPT-4o, en la que la letra o significa “omnimodelo”. La función multimodal ofrece a los usuarios la posibilidad de interactuar mediante texto, voz e imágenes. GPT-4o puede reconocer y responder a capturas de pantalla, fotos, documentos o tablas cargadas.

Índice
  1. Rendimiento mejorado de reconocimiento de audio e imágenes.
  2. No te quedes atrás de la competencia
  3. Disponibilidad y limitaciones de ventanas emergentes

Rendimiento mejorado de reconocimiento de audio e imágenes.

El modelo de IA también es capaz de distinguir entre expresiones faciales e información escrita a mano en papel. OpenAI dijo que el LLM mejorado y el chatbot que lo acompaña pueden responder a la entrada de audio en solo 232 milisegundos, con un promedio de 320 milisegundos, "que es similar al tiempo de respuesta de un humano en una conversación". Las versiones anteriores de GPT también tenían un modo de voz conversacional, pero las latencias promediaban 2,8 segundos (en GPT-3.5) y 5,4 segundos (en GPT-4).

Según Mira Murati, directora de tecnología de OpenAI, GPT 4o ahora iguala el rendimiento de GPT-4 Turbo (lanzado en noviembre) para texto y código en inglés, con una mejora significativa para texto en otros idiomas. Durante su presentación, la ejecutiva dijo que GPT-4o también tendrá las últimas capacidades de memoria, lo que le permitirá aprender de conversaciones anteriores con los usuarios y agregarlas a sus respuestas.

No te quedes atrás de la competencia

Si el rendimiento está ahí, Chirag Dekate, analista de Gartner, destaca que el LLM presentado se pone a la altura de sus competidores en la era del multimodal accesible para todos. "Está a la altura de lo que Google propuso hace tres meses con el anuncio de Gemini 1.5, su sistema multimodal con una ventana emergente de un millón de tokens", especifica. No obstante, reconoce que las capacidades demostradas por GPT-4o son impresionantes en el campo de la conversación, donde los usuarios pueden interrumpirla e iniciar consultas nuevas o modificadas y esto en 50 idiomas.

Se realizaron varias demostraciones para demostrar las capacidades del LLM. Por ejemplo, el modo de voz fue capaz de traducir una conversación entre Mira Murati, que hablaba italiano, y Barret Zoph, responsable de post-formación en OpenAI, que hablaba inglés. En otra prueba, Barret Zoph escribió una ecuación algebraica y luego se la mostró a ChatGPT a través de la cámara de su smartphone y le pidió que explicara el resultado. Siguiendo con la parte de voz, los dos directivos pidieron al chatbot que compusiera un cuento infantil antes de irse a dormir. Pudieron interrumpir al chatbot y pedirle que añadiera más emoción a la entonación de su voz.

De izquierda a derecha, la directora técnica de OpenAI, Mira Murati, el líder de investigación de Frontiers, Mark Chen, y el líder de posentrenamiento, Barret Zoph, demuestran la capacidad de GPT-4o para interpretar datos gráficos. (Crédito de la foto: OpenAI)

Disponibilidad y limitaciones de ventanas emergentes

Mira Murati dijo que las capacidades de texto e imagen de GPT-4o se implementarán de manera iterativa con un amplio acceso. Al "equipo rojo" A partir de hoy, los usuarios de pago de ChatGPT Plus tendrán límites de mensajes hasta cinco veces más altos. Una versión del modo de voz con GPT-4o llegará en alfa en las próximas semanas, señaló la ejecutiva. Los desarrolladores de modelos también pueden acceder a GPT-4o en la API como un modelo de reconocimiento de texto e imágenes. El LLM es el doble de rápido, cuesta la mitad y tiene límites de rendimiento cinco veces más altos que GPT-4 Turbo, dijo. "Planeamos lanzar soporte para capacidades adicionales de audio y video GPT-4o para un pequeño grupo de socios confiables a través de la API en las próximas semanas", agregó la CTO.

Queda un detalle por aclarar y no es el menos importante según Chirag Dekate: el tamaño de la ventana de contexto. En el caso de GPT-4, era de 128.000 tokens. "El tamaño del contexto permite definir la precisión del modelo. Cuanto mayor sea el tamaño del contexto, más datos se pueden introducir y mejores resultados se obtienen", explica el consultor. A nuestros compañeros de IDG, un portavoz de OpenAI nos contó que el tamaño de la ventana de contexto de GPT-4o también era de 128.000 tokens. Un poco lejos del millón de tokens de Gemini 1.5 de Google o de los 200.000 de Claude 2.1 de Anthropic.