Si ChatGPT continúa creciendo, al igual que su homólogo Dall-E para imágenes, tendremos que contar con una tercera solución, Sora. IA abierta presentó ayer su solución para generar vídeos a partir de texto, capaz de crear animaciones de hasta un minuto de duración con muy buena calidad visual (resolución 1080p)

Desde el punto de vista técnico, Estados de OpenAI en un documento "Entrenamos modelos de entrega de texto condicional de forma conjunta con vídeos e imágenes de duración, resolución y relación de aspecto variables". La empresa se apoya en la tecnología de transformadores (la base de LLM) que "opera sobre los elementos espaciotemporales de los vídeos y el código latente de las imágenes". Y el resultado está ahí. Sora puede generar escenas complejas con múltiples personajes, tipos específicos de movimientos y detalles precisos sobre el sujeto y el fondo. El modelo no solo entiende lo que el usuario pidió en el mensaje, sino también cómo existen estas cosas en el mundo físico.

Las fallas persisten y el acceso es limitado

Si bien las primeras demostraciones son impresionantes, OpenAI se muestra lúcido respecto de Sora y reconoce algunos defectos. El modelo tiene debilidades, en particular en la simulación precisa de las propiedades de escenas complejas. Además, el modelo puede confundir los detalles espaciales de un mensaje, confundiendo izquierda y derecha. En cuanto al aspecto temporal, puede tener dificultades para describir con precisión eventos que ocurren en el tiempo, como el seguimiento de la trayectoria de una cámara específica.

En cuanto a la disponibilidad, Sora solo se distribuye a determinadas personas. El “equipo rojo” (el equipo encargado de evaluar los riesgos) se encarga de analizar las áreas críticas. OpenAI también da acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea lo más útil posible para los profesionales creativos. Una cosa es segura: la startup pretende hacerse un lugar en el mercado de la generación de vídeo, donde ya hay una fuerte competencia con actores como Meta, Microsoft o Runway.