Logotipo de Zephyrnet

La Mona Lisa ahora puede hablar gracias a EMO

Fecha:

Investigadores del Instituto de Computación Inteligente del Grupo Alibaba han desarrollado una herramienta de inteligencia artificial conocida como EMO: Emote Portrait Alive, que da vida a los retratos.

La herramienta permite a los usuarios agregar audio y video a una imagen fija. Usando la herramienta, uno puede jugar con un retrato antiguo como La Gioconda del famoso Leonardo da Vinci, más conocida como la Mona Lisa, haciéndola hablar y cantar con poses de cabeza, movimientos, expresiones faciales y sincronización labial precisa.

Herramienta de generación de retratos y videos basada en audio expresivo

En su informe, “EMO: Emote Portrait Alive: Generación de vídeos de retratos expresivos con el modelo de difusión Audio2Video en condiciones débiles”,  los investigadores brinde información sobre su nueva herramienta, sus funciones y cómo usarla para obtener resultados perfectos.

Con la herramienta de inteligencia artificial para la creación de retratos basada en audio expresivo, los usuarios pueden crear videos de avatares vocales con expresiones faciales. Según los investigadores, la herramienta les permite crear vídeos de cualquier duración "dependiendo de la duración del audio de entrada".

"Ingrese una imagen de un solo personaje y un audio vocal, como un canto, y nuestro método puede generar videos de avatares vocales con expresiones faciales expresivas y varias poses de la cabeza", dijeron los investigadores.

“Nuestro método admite canciones en varios idiomas y da vida a diversos estilos de retratos. Reconoce intuitivamente variaciones tonales en el audio, lo que permite la generación de avatares dinámicos y ricos en expresión”.

Lea también: OpenAI afirma que el New York Times “pirateó” ChatGPT para desarrollar un caso de derechos de autor

Hablando, cantando desde un retrato.

Según los investigadores, la herramienta impulsada por IA no sólo procesa música sino que también admite audio hablado en diferentes idiomas.

"Además, nuestro método tiene la capacidad de animar retratos de épocas pasadas, pinturas y modelos 3D y contenido generado por IA, infundiéndoles movimiento y realismo realistas", dijeron los investigadores.

Pero la cosa no termina ahí. Los usuarios también pueden jugar con retratos e imágenes de estrellas de cine ofreciendo monólogos o actuaciones en varios estilos e idiomas.

Algunos entusiastas de la IA que adoptaron la plataforma X la describieron como "alucinante".

Límite cada vez más delgado entre lo real y la IA

Novedades de la herramienta EMO por Alibaba ha hecho que otros usuarios piensen que la frontera entre la IA y la realidad está a punto de desaparecer a medida que las empresas de tecnología continúan lanzando nuevos productos.

"La frontera entre la IA y lo real es más delgada que nunca" publicado Rubén en X, mientras que otros piensan TikTok Pronto se verá inundado de creaciones.

“Esta es la primera vez que veo un resultado tan preciso y realista. Vídeo IA Este año promete ser creíble”, afirmó. Pablo encubierto.

Mientras que otros piensan que esto podría cambiar las reglas del juego para los creativos, Min Choi también se muestra cauteloso al respecto.

“Con suerte, solo para cosas creativas. Esto podría ser peligroso en las manos equivocadas”.

La Mona Lisa ahora puede hablar gracias a EMO

Usando la herramienta

Al explicar el proceso, los investigadores destacaron que el marco EMO tiene dos etapas, la primera conocida como codificación de fotogramas, donde se implementa ReferenceNet para extraer características de imágenes de referencia y fotogramas en movimiento.

La siguiente etapa es la etapa del proceso de difusión, donde un codificador de audio previamente entrenado "procesa la incrustación de audio". Para crear imágenes faciales perfectas, los usuarios integran máscaras de regiones faciales y ruido de cuadros múltiples.

“Estos mecanismos son esenciales para preservar la identidad del personaje y modular sus movimientos, respectivamente”, se lee en parte de la explicación.

"Además, los módulos temporales se utilizan para manipular la dimensión temporal y ajustar el movimiento de velocidad".

punto_img

Información más reciente

punto_img