La investigación del aprendizaje automático en acústica podría abrir el metaverso multimodal

Investigadores del MIT e IBM Watson AI Lab han creado un modelo de aprendizaje automático para predecir lo que escucharía un oyente en una variedad de ubicaciones dentro de un espacio 3D.

Los investigadores primero usaron el modelo ML para comprender cómo se propagará cualquier sonido en una habitación a través del espacio, creando una imagen de una habitación en 3D de la misma manera que las personas usan el sonido para comprender su entorno.

En un artículo en coautoría de Yilun Du, estudiante de posgrado del MIT en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS), los investigadores muestran cómo se pueden aplicar a la acústica técnicas similares al modelado visual en 3D.

Pero también lucharon con elementos donde el sonido y la luz divergen. Por ejemplo, cambiar la ubicación del oyente en una habitación puede crear una impresión muy diferente del sonido debido a los obstáculos, la forma de la habitación y la naturaleza del sonido, lo que dificulta la predicción del resultado.

Para superar este problema, los investigadores incorporaron en su modelo características de acústica. En primer lugar, que la fuente del sonido y el oyente pueden intercambiar lugares sin cambiar lo que escucha el oyente, en igualdad de condiciones. El sonido también depende específicamente de las características locales, como los obstáculos en el camino del oyente o el sonido.

“Hasta ahora, la mayoría de los investigadores solo se han centrado en modelar la visión. Pero como humanos, tenemos una percepción multimodal. No solo es importante la visión, el sonido también lo es. Creo que este trabajo abre una interesante dirección de investigación sobre cómo utilizar mejor el sonido para modelar el mundo”. Du dijo.

Usando el enfoque, el modelo de campo acústico neural (NAF) resultante pudo muestrear aleatoriamente puntos en esa cuadrícula para aprender las características en ubicaciones específicas. Por ejemplo, la proximidad a una puerta afecta fuertemente lo que escucha el oyente en relación con otras características geométricas más alejadas en el otro lado de la habitación.

Luego, el modelo pudo predecir lo que el oyente podría escuchar de un estímulo acústico específico en función de sus ubicaciones relativas en la habitación.

“Al modelar la propagación acústica en una escena como un sistema lineal invariable en el tiempo, los NAF aprenden a mapear continuamente todos los pares de ubicación del emisor y del oyente en una función de respuesta de impulso neural que luego se puede aplicar a sonidos arbitrarios”, dijo el papel dijo [PDF]. “Demostramos que la naturaleza continua de los NAF nos permite generar una acústica espacial para un oyente en una ubicación arbitraria y podemos predecir la propagación del sonido en ubicaciones novedosas”.

Chuang Gan, miembro principal del personal de investigación del MIT-IBM Watson AI Lab que también trabajó en el proyecto, dijo: "Esta nueva técnica podría abrir nuevas oportunidades para crear una experiencia inmersiva multimodal en la aplicación de metaverso".

No entendemos todo Reg los lectores estarán entusiasmados con el caso de uso anterior. ®

Inteligencia de datos generativa

La investigación del aprendizaje automático en acústica podría abrir un metaverso multimodal

café vc

Los equipos de seguridad y SRE quieren lo mismo: hagámoslo realidad

Información más reciente

Los equipos de seguridad y SRE quieren lo mismo: hagámoslo realidad

Los equipos de seguridad y SRE quieren lo mismo: hagámoslo realidad

vidacienciav

café vc

café vc

vidacienciav