La funcionalidad de la plataforma de IA generativa (genAI) revelada la semana pasada por IA abierta EspañolSabe cómo utilizar texto para generar vídeo, con actores y otros elementos realistas en movimiento. Este modelo genAI, llamado Sora, tiene una función de conversión de texto a vídeo que puede crear escenas complejas y realistas con múltiples personajes, tipos específicos de movimientos y detalles precisos sobre el sujeto y el fondo "manteniendo la calidad visual y el respeto por la indicación del usuario". Sora no solo entiende lo que el usuario está pidiendo en la indicación, sino también cómo existen esas cosas en el mundo físico. "La tecnología traduce descripciones escritas en contenido de vídeo, basándose en modelos de IA que entienden la entrada de texto y generan los elementos visuales y auditivos correspondientes", explicó Bernard Marr, un consultor de nuevas tecnologías. "Este proceso se basa en algoritmos de aprendizaje profundo que tienen la capacidad de interpretar texto y sintetizar vídeos en función de las escenas, acciones y diálogos descritos en el texto". Si bien esta capacidad ya la ofrecen los motores de IA de otros proveedores, como Gemini de Google, se espera que el impacto de Sora sea profundo", dijo.

OpenAI Sora

Las funciones de edición de imágenes basadas en texto incluidas en Lumiere de Google se pueden utilizar para la edición de videos. (Crédito: Google)

Como cualquier tecnología avanzada de genAI, el impacto de Sora ayudará a redefinir la creación de contenido, mejorando la narración de historias y democratizando la producción de videos. “Las capacidades de texto a video tienen un enorme potencial en una variedad de áreas, incluida la educación para crear materiales de aprendizaje inmersivos, el marketing para generar contenido atractivo y el entretenimiento para la creación rápida de prototipos y la narración de historias”, dice Marr. “Sin embargo, la capacidad de los modelos de IA para traducir descripciones de texto en videos reales también subraya la necesidad de consideraciones éticas rigurosas y salvaguardas contra el uso indebido. La aparición de la tecnología de texto a video plantea preguntas complejas sobre la infracción de derechos de autor, especialmente porque es capaz de generar contenido que podría parecerse mucho a obras protegidas por derechos de autor”. El panorama legal en esta área está actualmente sujeto a varias demandas en curso, por lo que es prematuro hacer declaraciones definitivas sobre cómo se resolverán los problemas de derechos de autor”.

Índice
  1. Creando un mundo para satisfacer necesidades emocionales
  2. ¿Sora más fuerte que Google y las startups?

Creando un mundo para satisfacer necesidades emocionales

Según el consultor, “predomina un elemento potencialmente más preocupante: la capacidad de la tecnología para producir deepfakes muy convincentes, lo que plantea serias cuestiones éticas y de privacidad, y exige una supervisión y una regulación estrictas”. Hace cinco años, en las Naciones Unidas, Dan Faggella, fundador e investigador principal de Emerj Artificial Intelligence, hizo una presentación sobre deepfakes. En ese momento, destacó que, a pesar de las advertencias sobre estas falsificaciones digitales, es decir, que “la gente querrá creer lo que quiera creer”. Pero lo más importante es que pronto las personas podrán vivir en mundos de IA en los que se pondrán un casco y pedirán a un modelo de IA que cree un mundo único para satisfacer sus necesidades emocionales, ya sea relajación, humor o acción, todo programado específicamente para el usuario en cuestión. “La máquina podrá crear experiencias visuales y auditivas, y posiblemente hápticas, para todos, moldeadas por sus experiencias previas con el casco”, dijo Faggella. “Necesitamos pensar en esto desde una perspectiva política, incluido hasta dónde podemos llegar con esta modalidad de escapismo”. Los modelos de texto y video también pueden crear aplicaciones que utilicen IA para ayudar a las personas a ser productivas, educarlas y mantenerlas concentradas en su trabajo. “Eso podría capacitarlas para ser excelentes vendedores, ayudarlas a escribir un código excelente y codificar mucho más de lo que pueden hacer hoy”, agregó.

Por ahora, Sora de OpenAI y el modelo de IA multimodal Gemini 1.5 de Google son proyectos de investigación internos, que solo se ofrecen a un grupo selecto de académicos externos y otras personas que están probando la tecnología. A diferencia del popular ChatGPT de OpenAI, Google ha dicho que los usuarios pueden alimentar a su motor de búsqueda con mucha más información para obtener respuestas más precisas. Pero incluso como proyectos de investigación internos, Sora y Gemini 1.5 presentan ejemplos del mundo real e información detallada, incluidos videos, fotos, gifs y artículos de investigación relacionados. Además del motor de IA multimodal Gemini de Google, Sora sigue varios modelos de texto a video, incluidos Emu de Meta, Gen-2 de Runway y Stable Video Diffusion de Stability AI.

OpenAI Sora

En el proceso de eliminación de ruido que utiliza Stable Diffusion, el modelo genera imágenes eliminando de forma iterativa el ruido aleatorio hasta que se alcanza una cantidad configurada de pasos. El proceso está guiado por un codificador de texto CLIP entrenado previamente en conceptos con el mecanismo de atención, hasta que se genera una imagen que ilustra una representación del concepto entrenado. (Crédito: Stable Diffusion/Wikipedia)

¿Sora más fuerte que Google y las startups?

Google está llevando a cabo dos proyectos de investigación simultáneos que están impulsando lo que un portavoz llamó "el estado del arte en modelos de generación de vídeo", a saber, Lumiere y VideoPoet. Lanzado a principios de este mes, Lumiere es la tecnología de generación de vídeo más avanzada de Google, que ofrece 80 fotogramas por segundo, en comparación con los 25 de competidores como Stable Video Diffusion. "Diseñado para procesar información y automatizar tareas, Gemini ofrece una integración perfecta de modalidades desde el principio, lo que lo hace potencialmente más intuitivo para los usuarios que buscan una experiencia sencilla y orientada a las tareas", explicó Marr, añadiendo, sin embargo, que "el enfoque en capas de GPT-4 permitió mejoras más granulares en las capacidades a lo largo del tiempo y, por lo tanto, flexibilidad y profundidad en las capacidades de conversación y generación de contenido".

En una comparación directa, Sora parece ser más potente que los modelos de generación de vídeo de Google. Mientras que Lumiere de Google puede producir un vídeo con una resolución de 512X512 píxeles, Sora afirma alcanzar resoluciones de hasta 1920X1080 píxeles, o calidad HD. Los vídeos de Lumiere están limitados a unos 5 segundos, mientras que los de Sora pueden durar hasta un minuto. Además, Lumiere no puede producir vídeos compuestos de varios fotogramas, mientras que Sora sí. Se dice que Sora, al igual que otros modelos, también es capaz de realizar tareas de edición de vídeo, como crear vídeos a partir de imágenes u otros vídeos, combinar elementos de diferentes vídeos y ampliar los vídeos en el tiempo. "En la competencia entre Sora de OpenAI y empresas emergentes como Runway AI, la madurez puede ofrecer ventajas en términos de fiabilidad y escalabilidad", dijo Marr. "Si bien las empresas emergentes suelen aportar enfoques innovadores y agilidad, OpenAI, dada la importante financiación que recibe de empresas como Microsoft, debería poder ponerse al día y potencialmente superar esta brecha rápidamente".