Crédito: capturas videos OpenAI
¿Qué es Sora IA y cómo funciona la inteligencia artificial que crea videos hiperrealistas?
- Noticia relacionada:
- Tecnología
- Inteligencia Artificial
La empresa OpenAI presentó a Sora, un modelo de inteligencia artificial que puede crear videos realistas de hasta un minuto de duración a partir de instrucciones de texto. Conozca cómo funciona.
Por: Redacción Cambio
La empresa OpenAI presentó una nueva tecnología tras el rotundo éxito de ChatGPT, su aplicación de chatbot de inteligencia artificial (IA). Se trata de Sora, un modelo de IA capaz de generar videos realistas de hasta un minuto de duración a partir de instrucciones de texto.
Actualmente, esta herramienta no está disponible para el público en general. Solo la puede usar un grupo selecto de artistas visuales, diseñadores y cineastas, con el fin de hacer comentarios sobre cómo mejorar el modelo y hacerlo más útil para los profesionales creativos.
También tienen acceso a Sora los miembros del equipo rojo de OpenAI, especializados en áreas como la desinformación, y contenido que incita al odio y prejuicios, quienes están evaluando áreas críticas en el funcionamiento de esta IA, en busca de posibles daños o riesgos.
¿Cómo funciona Sora?
Sora es un modelo de difusión que produce videos a partir de instrucciones de texto e incluso de una imagen fija, animando el contenido de manera precisa. Así mismo, tiene la capacidad de tomar un video existente y ampliarlo o completar los fotogramas faltantes.
Inicialmente, los videos generados por Sora pueden presentar ruido estático, pero este efecto se va eliminando gradualmente a medida que se reproducen escenas complejas en las que aparecen diversos personajes y se ejecutan diferentes tipos de movimientos de cámara.
Por ejemplo, el video que se muestra a continuación se creó a partir del texto: "Una mujer elegante camina por una calle de Tokio llena de luces de neón que brillan con calidez y de carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo y botas negras, y lleva un bolso negro. Lleva gafas de sol y pintalabios rojo. Camina segura y despreocupada. La calle está húmeda y es reflectante, lo que crea un efecto espejo de las luces de colores. Muchos peatones caminan por ella".
“El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual”, se lee en un comunicado de la empresa.
Sora se basa en investigaciones sobre los modelos DALL·E y GPT y utiliza la técnica de recaptioning de DALL·E 3, inteligencia artificial de la empresa que genera imágenes a partir de texto.
Según OpenAi, esta técnica "implica generar subtítulos altamente descriptivos para los datos de entrenamiento visual. Como resultado, el modelo puede seguir más fielmente las instrucciones de texto del usuario en el vídeo generado".
Las fallas de Sora
Como toda tecnología, Sora presenta ciertas limitaciones, especialmente en la precisión de la física de los videos y los casos de causa y efecto. OpenAI señala que "por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco".
Además, el modelo puede tener dificultades para interpretar "detalles espaciales" de un mensaje, como la diferenciación entre izquierda y derecha, y el seguimiento de una trayectoria de cámara específica.
En cuanto a la posible utilización de Sora para generar contenido engañoso, OpenAI está desarrollando herramientas adicionales, como un clasificador de detección que puede identificar cuándo Sora ha generado un video. Además, están aplicando métodos de seguridad también utilizados en DALL·E 3.
En este caso, el clasificador de texto se encargará de verificar y rechazar las solicitudes de ingreso de texto que violen las políticas de uso de OpenAI, como violencia extrema, contenido sexual, imágenes de odio, imágenes de celebridades o violaciones de la propiedad intelectual de terceros.
“A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella”, dice el comunicado de la empresa.