“Tome una fotografía de un lugar cuando viaje y tenga una conversación en vivo sobre lo interesante de ese lugar emblemático. Cuando esté en casa, tome fotografías de su refrigerador y alacenas para saber qué hay para cenar (y haga preguntas de seguimiento para obtener una receta paso a paso). Después de la cena, ayude a su hijo a resolver un problema de matemáticas tomando una fotografía, rodeando el problema y pidiéndole que le dé un consejo. Esto es lo que ahora es capaz de hacer ChatGPT, el famoso agente conversacional de OpenAI.

Índice
  1. ChatGPT ahora puede ver, oír y hablar
  2. Riesgos señalados
  3. Un despliegue gradual

ChatGPT ahora puede ver, oír y hablar

El objetivo es claro: hacer de ChatGPT una herramienta inherente al ser humano. La capacidad de voz agregada a la herramienta está impulsada por un modelo de texto a voz, capaz de generar audio similar al humano a partir de un texto simple y unos pocos segundos de muestra de voz real. La firma especifica que trabajó “con actores profesionales para crear cada voz”. Además, también utiliza Whisper, su sistema de reconocimiento de voz de código abierto, para transcribir tus palabras en texto. Para comenzar a usar la voz, simplemente vaya a Configuración → Nuevas funciones en la aplicación móvil y elija Chats de voz. El usuario sólo necesita presionar el botón del auricular ubicado en la esquina superior derecha de la pantalla de inicio y elegir su voz favorita entre cinco voces diferentes.

ChatGPT puede escuchar a alguien y responderle. (Crédito: OpenAI)

Otro cambio de tamaño: es posible mostrar una o más imágenes a ChatGPT. Tomando el ejemplo del frigorífico, Abierto AI dice esto: “Explore el contenido de su refrigerador para preparar una comida” o “analice un gráfico complejo en busca de datos relacionados con el trabajo”. Incluso es posible, para centrarse en una parte concreta de la imagen, utilizar la herramienta de dibujo de la aplicación móvil. Para usarlo, simplemente presione el botón de foto para capturar o elegir una imagen. Si estás en iOS o Android, toca primero el botón más. La comprensión de imágenes la proporcionan los modelos GPT-3.5 y GPT-4 que "aplican sus habilidades de razonamiento lingüístico a una amplia gama de imágenes, como fotografías, capturas de pantalla y documentos que contienen tanto texto como imágenes", se especifica.

Riesgos señalados

Sin embargo, OpenAI quisiera advertir a sus usuarios que estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraude. Precisa que, por tanto, esta tecnología se utiliza únicamente para el chat de voz. Spotify está aprovechando notablemente esta capacidad para el piloto de su función de traducción de voz, “que ayuda a los podcasters a ampliar el alcance de sus historias traduciendo podcasts a otros idiomas con las voces de los propios podcasters”.

Cuando se trata de riesgos relacionados con la imagen, la firma dice que los modelos basados ​​en la visión también presentan desafíos, "que van desde alucinaciones sobre personas hasta confiar en la interpretación del modelo de imágenes en áreas de alto riesgo". juego ". Por lo tanto, el modelo fue probado previamente por miembros del famoso "Equipo Rojo" de OpenAI para detectar riesgos en áreas como el extremismo y la relevancia científica, así como con un conjunto diverso de probadores alfa. Además, la compañía también ha tomado medidas técnicas para limitar significativamente la capacidad de ChatGPT para analizar y hacer declaraciones directas sobre individuos, "porque ChatGPT no siempre es preciso y estos sistemas deben respetar la privacidad de los individuos", dice.

Es posible hacerle una pregunta a ChatGPT agregando una foto para describir mejor el problema y rodear el área en la que debe enfocarse el chatbot. (Crédito: OpenAI)

Después de enviar una foto y recibir una respuesta de ChatGPT, el usuario puede enviar dos fotos más para completar su envío. (Crédito: OpenAI)

Un despliegue gradual

Disponible solo para usuarios Plus y Enterprise (durante las próximas dos semanas), esta actualización de la herramienta debería estar disponible para otros tipos de usuarios, incluidos los desarrolladores, más adelante. OpenAI especifica que la voz está disponible en iOS y Android (haz clic en tu configuración), mientras que las imágenes estarán disponibles en todas las plataformas. Se precisa que el modelo tiene ciertas limitaciones, en particular lingüísticas: “El modelo es eficaz para transcribir textos en inglés, pero su rendimiento es mediocre en otras lenguas, en particular aquellas cuya escritura no es latina. No recomendamos a nuestros usuarios que no hablan inglés que utilicen ChatGPT para este propósito”.