Logotipo de Zephyrnet

AudioLM imita imperceptiblemente el habla y la música

Fecha:

  • La división de investigación de Google ha lanzado AudioLM, un marco para crear audio de alta calidad que conserva la coherencia a lo largo del tiempo.
  • Lo más sorprendente es que lo hace sin transcripciones ni anotaciones previas, a pesar de que el discurso generado es aceptable sintáctica y semánticamente.
  • Además, mantiene la identidad y la prosodia del hablante hasta el punto de que el oyente no puede discernir qué parte del audio es genuina y cuál fue generada por inteligencia artificial.
  • La característica más crucial de la inteligencia artificial de AudioLM es su capacidad para realizar varias tareas a la vez, no solo repetir conversaciones y melodías.
  • AudioLM aún no es de acceso público; es solo un modelo de lenguaje que se puede aplicar en una variedad de aplicaciones.

Les mostramos juegos de ajedrez y rápidamente se convirtieron en oponentes imbatibles; les dejamos leer nuestros textos, y pronto empezaron a escribir. También aprendieron a pintar y editar fotos. ¿Había alguien que dudara de que la inteligencia artificial pudiera hacer lo mismo con los discursos y la música?

Índice del contenido

AudioLM de Google hace milagros tanto con el habla como con la música

El grupo de investigación de Google ha lanzado AudioLM, un marco para producir audio de alta calidad que mantiene la coherencia a lo largo del tiempo. Para ello, comienza con una grabación de apenas unos segundos y es capaz de extenderla de forma natural y lógica.

Lo más impresionante es que lo hace sin haber sido enseñado con transcripciones o anotaciones previas, a pesar de que el discurso creado es sintáctica y semánticamente razonable. Además, preserva la identidad y la prosodia del hablante hasta el punto de que el oyente no puede determinar qué parte del audio es genuina y cuál fue creada por inteligencia artificial.

El nuevo Ai de Google, Audiolm, puede imitar casi perfectamente el habla y la música
La nueva IA imita no solo el habla sino también el ruido de fondo.

Las aplicaciones de la inteligencia artificial son asombrosas. No solo puede imitar la articulación, el tono, el timbre y la intensidad, sino que también puede introducir el sonido de la respiración del hablante y hacer frases comprensibles. Si no es de un estudio sino de una grabación con ruido de fondo, AudioLM lo imita para asegurar la continuidad. Hay más ejemplos disponibles en el Sitio web de AudioLM.

AudioLM fue entrenado en semántica y acústica

La creación de audio o música no es un fenómeno nuevo. Sin embargo, es el enfoque adoptado por los investigadores de Google para resolver el problema. Se recopilan indicadores semánticos (fonemas, léxico, semántica…) y marcadores acústicos (identidad del hablante, calidad de grabación, ruido de fondo…) de cada audio para codificar una estructura de alto nivel (fonemas, léxico, semántica…).

Con estos datos ya procesados ​​e inteligibles para AI, AudioML comienza su trabajo construyendo una jerarquía en la que primero predice marcadores semánticos, que luego se utilizan como restricciones para pronosticar marcadores acústicos. Este último se emplea una vez más al final para convertir los bits en algo que podamos escuchar.

El nuevo Ai de Google, Audiolm, puede imitar casi perfectamente el habla y la música
AudioLM es considerablemente mejor para continuar composiciones de piano en comparación con modelos entrenados con marcadores auditivos.

Esta separación semántica y la jerarquía de la acústica no solo son útiles para entrenar modelos de lenguaje que crean el habla. También tiene más éxito para continuar con las composiciones de piano, según los investigadores, como se demuestra en su sitio web. Supera a los modelos que se entrenan exclusivamente con marcadores auditivos.


Francia comienza a usar inteligencia artificial para descubrir piscinas sujetas a impuestos


El aspecto más importante de la inteligencia artificial de AudioLM es que puede realizar todo a la vez, no solo repetir discursos y melodías. Es, por lo tanto, un modelo de un solo idioma que se puede usar para texto a voz (un robot podría leer novelas completas y reemplazar a los actores de voz profesionales) o para permitir que cualquier dispositivo hable con humanos usando una voz familiar. Amazon ya ha investigado la posibilidad de utilizar la voz de sus seres queridos en sus dispositivos Alexa.

¿La IA se está volviendo más peligrosa cada día?

Programas como DALL-E 2 y difusión estable son excelentes herramientas para esbozar ideas rápidamente o generar materiales creativos. El audio puede ser mucho más importante, y es posible que las empresas utilicen la voz de un locutor bajo demanda. Las voces de los actores fallecidos podrían incluso utilizarse en el doblaje de películas.

El nuevo Ai de Google, Audiolm, puede imitar casi perfectamente el habla y la música
Si bien esta IA puede producir un discurso increíblemente convincente, esto también presenta el riesgo de discursos fabricados.

Puede que estés pensando que esta idea, aunque emocionante, también es arriesgada. Cualquier grabación de audio puede ser manipulada con fines políticos, legales o judiciales. Según Google, mientras las personas tienen dificultades para distinguir entre lo que proviene del hombre y lo que proviene de la inteligencia artificial, una computadora puede discernir si el audio es orgánico o no. No solo que las máquinas nos reemplacen, sino que se requerirá otra máquina para evaluar su trabajo.


Los trabajos de inteligencia artificial tienen una gran demanda: estas son las trayectorias profesionales


AudioLM aún no está disponible para el público; es solo un modelo de lenguaje que puede implementarse en varias aplicaciones. Sin embargo, este ejemplo, junto con Software de música Jukebox de OpenAI, destaca lo rápido que estamos entrando en un nuevo mundo en el que nadie sabrá, ni le importará, si esa foto fue tomada por una persona o si hay alguien al otro lado del teléfono.

punto_img

Información más reciente

punto_img