Logotipo de Zephyrnet

OpenAI presenta un nuevo y potente modelo de conversión de texto a vídeo

Fecha:

La compañía de inteligencia artificial generativa detrás de ChatGPT y DALL-E tiene un nuevo juguete: Sora, un modelo de texto a video que (a veces) puede generar clips bastante convincentes de 60 segundos a partir de mensajes como “una mujer elegante camina por una calle de Tokio…” y “un tráiler de película que presenta las aventuras del hombre del espacio de 30 años que lleva un casco de motocicleta tejido de lana roja…”

Gran parte de la generación de videos de IA que hemos visto hasta ahora no logra sostener una realidad consistente, rediseñando rostros, ropa y objetos de un cuadro al siguiente. Sora, sin embargo, "entiende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico", dice OpenAI en su puesto de anuncio (usando la palabra "entiende" de manera vaga).

Ver publicación en imgur.com”

Los clips de Sora son impresionantes. Si no los estuviera mirando de cerca (digamos, simplemente los estuviera hojeando en las redes sociales), probablemente pensaría que muchos de ellos eran reales. El mensaje “un vídeo de celebración del Año Nuevo Lunar chino con un dragón chino” parece al principio un metraje documental típico de un desfile. Pero luego te das cuenta de que las personas tienen proporciones extrañas y parecen estar tropezándose; es como ese momento en un sueño en el que de repente te das cuenta de que todo está un poco mal. Espeluznante.

"El modelo actual tiene debilidades", escribe OpenAI. “Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco. El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica”.

Mi demostración favorita de las debilidades de Sora es un vídeo en el que una silla de plástico comienza a transformarse en una forma de vida de Cronenberg. Observar:

Ver publicación en imgur.com”

Actualmente, Sora no está disponible para el público y OpenAI dice que está evaluando los riesgos sociales del modelo y trabajando para mitigarlos, por ejemplo con "un clasificador de detección que puede indicar cuándo Sora generó un video".

Es fascinante como proyecto de investigación, pero OpenAI no solo está interesado en hacer ciencia informática interesante. Si puede superar a los legisladores y críticos de derechos de autor, está aquí para ganar dinero. La compañía dice que actualmente está "otorgando a [Sora] acceso a varios artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos". 

Un comentarista en X Me pregunto con optimismo si modelos como Sora algún día permitirán que el público arrebate el control de la producción cinematográfica a Hollywood haciendo películas únicamente con indicaciones, pero me pregunto de dónde creen que vendrá el material fuente para todo este video generado si no, ya sabes, cineastas? Es posible que las películas de Hollywood ya parezcan bastante homogéneas, pero la reproducción automática de imágenes CGI al estilo Marvel Cinematic Universe y tomas de drones comerciales de automóviles no aporta exactamente expresión creativa a las masas, en mi opinión. (En particular, la publicación del blog no menciona el material de capacitación de Sora).

Ver publicación en imgur.com”

A pesar de los resultados a menudo torpes de la IA generativa y el atolladero legal y ético que presenta, ya estamos viendo su uso en medios creativos profesionales. Eso incluye los videojuegos, tanto en formas que son directamente visibles para nosotros, como generar arte, voces y diálogos sobre la marcha, como en formas que son menos obvias, como generar fragmentos de código o arte conceptual temprano. A una encuesta reciente encontró que El 31% de los profesionales del desarrollo de juegos utilizan la IA generativa de alguna manera. Combinado con otro software, me pregunto qué podría hacer este tipo de simulación de video basada en aprendizaje automático además de generar clips ligeramente parecidos a CG.

No creo que nadie sepa realmente cómo se utilizará la IA generativa dentro de cinco o diez años o cuáles serán las consecuencias de un desarrollo continuo, pero no se está desacelerando, así que parece que lo descubriremos. OpenAI y otras empresas están trabajando explícitamente no sólo para mejorar los generadores de imágenes, vídeos y textos, sino también para lograr una “inteligencia artificial general” o AGI, como en la idea de ciencia ficción de lo que es la IA.

"Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr AGI", dice OpenAI.

punto_img

Información más reciente

punto_img