La vida no es un río largo y tranquilo para Operai. Desde la partida atronadora de su cofundador y directora científica, Ilya Sustskever pasado de mayoallá La fuga cerebral de repente se aceleró Con las recientes deserciones de Mira Murati (Directora Técnica), Bob McGrew (Director de Investigación) y Barret Zoph (vicepresidente del post-entrenamiento). Pero también Más recientemente de Diederik (Durk) KingmaUno de sus cofundadores especialista en IA Development que se une a Anthrope, donde encontrará cierto John Schulman, ex investigador científico y también cofundador ... de OpenAi. Siguiendo una tabla financiera que podría alcanzar los $ 6.5 mil millones - y en el que SoftBank tomaría su participación en $ 500 millones - El proveedor es muy consciente del papel esencial de la comunidad de desarrolladores en la adopción de sus soluciones. Destacar de una competencia más feroz que nunca en términos de LLM y agentes de conversación dopados en el Genai, Opadai Por lo tanto, pone las bocados dobles para seducirlas.

Con motivo de la segunda edición de su Conferencia de Devday (San Francisco) Este 1 de octubre, el proveedor ha presentado una serie de herramientas para facilitar su trabajo y ahorrar tiempo: API en tiempo real, visión ajustada para GPT-4O, destilación modelo y caché rápido.

Índice
  1. API en tiempo real
  2. Visión de ajuste para GPT-4O
  3. Destilación modelo
  4. Inmediato

API en tiempo real

Con una API real, los desarrolladores ahora pueden integrar rápidamente la síntesis vocal en sus aplicaciones. "Al igual que el modo vocal de chatgpt avanzado, la API en tiempo real respalda conversaciones vocales naturales utilizando las seis voces predefinidas que ya se cuidan en la API", explicar OpenAi. Para los casos de uso que no requieren necesariamente baja latencia, el editor anuncia la llegada de la API de finalización de chat para que los desarrolladores puedan transmitir cualquier texto o entrada de audio a GPT-4O y garantizar que el modelo responda con texto, audio o ambos. "Con la API de finalización de gatos, los desarrolladores pueden administrar todo el proceso con una sola llamada API, aunque sigue siendo más lenta que la conversación humana.

La API de tiempo real mejora esta situación transmitiendo directamente las entradas y salidas de audio, lo que permite experiencias de conversación más naturales. También puede administrar las interrupciones automáticamente, como el modo vocal de chatgpt avanzado ", dice OpenAi. Fueled por GPT-4O, la API real en tiempo real se encuentra actualmente en beta, mientras que la API de finalización de chat (y su modelo GPT-4O-ADIO-preview) estará en las próximas semanas. API de tiempo real usa texto y tokens de audio. 100 por millón de insumos y $ 200 ht por millón.

Visión de ajuste para GPT-4O

Después del ajuste de texto para GPT-4O, OpenAI proporciona a los desarrolladores imágenes. "Pueden mejorar el rendimiento de GPT-4O para las tareas de visión con solo 100 imágenes y obtener un rendimiento aún mayor con mayores volúmenes de datos e imágenes textuales", dijo el proveedor. Algunos ejemplos concretos de aplicaciones que se benefician de esta última característica se han revelado como el repartidor de alimentos para localizar correctamente las señales de tráfico y contar los separadores de vías para refinar sus datos cartográficos. O automat que condujo a GPT-4O para localizar elementos de la interfaz de usuario en una pantalla de una descripción en lenguaje natural, mejorando así la tasa de éxito de su agente RPA de 16.60 % a 61.67 %. En disponibilidad general, la visión ajustada para GPT-4O funciona a partir de la versión del modelo GPT-4O-2024-08-06. Excluyendo la promoción (1 millones de tokens de capacitación gratuitos), a partir del 31 de octubre, tendrá que pagar $ 25 excl. El impuesto para 1 millones de tokens y la inferencia costará $ 3.75 excl. Impuestos por millón de tokens de entrada y $ 15 ht por millón de tokens de producción.

Destilación modelo

OpenAI aprovecha su evento para anunciar una mejora en su función de destilación de modelo para refinar modelos más pequeños y menos costosos utilizando los resultados de modelos más eficientes. Objetivo: igualar el rendimiento de los modelos avanzados para tareas específicas a un costo más bajo. "Hasta ahora, la destilación era un proceso en varias etapas, sujeto a errores, lo que requería a los desarrolladores que orquestan manualmente múltiples operaciones utilizando herramientas desconectadas, desde la generación de conjuntos de datos hasta el refinamiento de los modelos y la medición de las mejoras de rendimiento", dijo el editor. Esta versión revisada incluye los siguientes módulos: finalizaciones almacenadas (construcción de conjuntos de datos para evaluar y refinar modelos), evals (creación y ejecución de evaluaciones personalizadas para medir el rendimiento de los modelos en tareas específicas) y ajuste fino (para usar conjuntos de datos creados con finalizaciones almacenadas en sus trabajos personalizados y realizar evaluaciones en modelos finos). La destilación del modelo está disponible ahora y se puede usar en modelos OpenAI que incluyen GPT-4O y O1 previa.

Inmediato

"Muchos desarrolladores usan el mismo contexto repetidamente a través de varias llamadas de API cuando crean aplicaciones de IA, por ejemplo, cuando realizan modificaciones en una base de código o tienen conversaciones largas con varias vueltas con un chatbot", explica OpenAI. Ante esta observación, la compañía anuncia la posibilidad de chatear la intensidad para reducir los costos y la latencia. "Al reutilizar recientemente tokens de entrada, los desarrolladores pueden beneficiarse de una reducción del 50 % y un tratamiento más rápido de las indicaciones", dice el proveedor. Disponible ahora, esta función se aplica automáticamente a las últimas versiones de GPT-4O, GPT-4O Mini, O1-previa y O1-Mini, así como a versiones mejoradas de estos modelos. Tenga en cuenta que las indicaciones de caché se ofrecen a un precio inferior al de las invitaciones, no en caché.

"Las llamadas de API a los modelos compatibles se beneficiarán automáticamente del caché de las indicaciones para obtener indicaciones de más de 1,024 tokens. La API almacena en caché el prefijo más largo de una solicitud que se calculó anteriormente, a partir de 1.024 tokens y mediante incrementos de 128 tokens. Si usa los invitados comunes con los invitados comunes sin tener que modificar sus API integración", dicen sus abiertos, dichelen.