Logotipo de Zephyrnet

Una IA acaba de aprender un idioma a través de los ojos y oídos de un niño pequeño

Fecha:

Sam tenía seis meses cuando se colocó por primera vez una cámara liviana en la frente.

Durante el próximo año y medio, la cámara capturó fragmentos de su vida. Gateaba entre las mascotas de la familia, observaba a sus padres cocinar y lloraba en el porche con la abuela. Mientras tanto, la cámara grabó todo lo que escuchó.

Lo que parece un bonito vídeo casero para niños pequeños es en realidad un concepto atrevido: ¿puede la IA aprender un lenguaje como un niño? Los resultados también podrían revelar cómo los niños adquieren rápidamente el lenguaje y los conceptos a una edad temprana.

Un nuevo estudio in Ciencia: describe cómo los investigadores utilizaron las grabaciones de Sam para entrenar una IA para comprender el lenguaje. Con solo una pequeña porción de la experiencia de vida de un niño durante un año, la IA pudo captar conceptos básicos, por ejemplo, una pelota, una mariposa o un balde.

La IA, llamada Child's View for Contrastive Learning (CVCL), imita aproximadamente cómo aprendemos cuando somos niños pequeños al hacer coincidir la vista con el audio. Es un enfoque muy diferente al adoptado por grandes modelos de lenguaje como los que detrás de ChatGPT o Bard. La asombrosa capacidad de estos modelos para elaborar ensayos, poesía o incluso guiones de podcasts ha emocionado al mundo. Pero necesitan digerir billones de palabras de una amplia variedad de artículos de noticias, guiones y libros para desarrollar estas habilidades.

Los niños, por el contrario, aprenden con mucha menos información y generalizan rápidamente sus aprendizajes a medida que crecen. Los científicos se han preguntado durante mucho tiempo si la IA puede capturar estas habilidades únicamente con las experiencias cotidianas.

"Demostramos, por primera vez, que una red neuronal entrenada con esta información realista desde el punto de vista del desarrollo de un solo niño puede aprender a vincular palabras con sus contrapartes visuales", dijo el autor del estudio, el Dr. Wai Keen Vong, del Centro de Ciencia de Datos de la Universidad de Nueva York. dijo en un comunicado de prensa sobre la investigación.

Juego de niños

Los niños absorben fácilmente las palabras y sus significados de la experiencia cotidiana.

Con solo seis meses, comienzan a conectar palabras con lo que ven; por ejemplo, un objeto redondo que rebota es una “pelota”. A los dos años saben aproximadamente 300 palabras y sus conceptos.

Los científicos han debatido durante mucho tiempo cómo sucede esto. Una teoría dice que los niños aprenden a relacionar lo que ven con lo que escuchan. Otro sugiere que el aprendizaje de idiomas requiere una experiencia más amplia del mundo, como la interacción social y la capacidad de razonar.

Es difícil desmenuzar estas ideas con las pruebas cognitivas tradicionales en niños pequeños. Pero podemos obtener una respuesta entrenando una IA a través de los ojos y oídos de un niño.

¿M3GAN?

El nuevo estudio aprovechó un rico recurso de vídeo llamado SAYCam, que incluye datos recopilados de tres niños de entre 6 y 32 meses utilizando cámaras tipo GoPro sujetas a sus frentes.

Dos veces por semana, las cámaras grabaron alrededor de una hora de metraje y audio mientras amamantaban, gateaban y jugaban. Todo el diálogo audible se transcribió en “enunciados”: palabras u oraciones pronunciadas antes de que el hablante o la conversación cambiaran. El resultado es una gran cantidad de datos multimedia desde la perspectiva de bebés y niños pequeños.

Para el nuevo sistema, el equipo diseñó dos redes neuronales con un "juez" para coordinarlas. Uno tradujo imágenes en primera persona al quién y el qué de una escena: ¿es una mamá cocinando? El otro descifró palabras y significados de las grabaciones de audio.

Luego, los dos sistemas se correlacionaron en el tiempo para que la IA aprendiera a asociar imágenes correctas con palabras. Por ejemplo, la IA aprendió a relacionar la imagen de un bebé con las palabras "Mira, hay un bebé" o la imagen de una pelota de yoga con "Guau, esa es una pelota grande". Con entrenamiento, aprendió gradualmente a separar el concepto de pelota de yoga del de bebé.

"Esto proporciona al modelo una pista sobre qué palabras deben asociarse con qué objetos", dijo Vong.

Luego, el equipo entrenó a la IA con videos de aproximadamente un año y medio de la vida de Sam. En conjunto, ascendieron a más de 600,000 fotogramas de vídeo, junto con 37,500 expresiones transcritas. Aunque las cifras parecen grandes, representan aproximadamente solo el uno por ciento de la vida diaria de vigilia de Sam y una miseria en comparación con la cantidad de datos utilizados para entrenar modelos de lenguaje grandes.

La IA infantil va en aumento

Para probar el sistema, el equipo adaptó una prueba cognitiva común que se utiliza para medir las habilidades lingüísticas de los niños. Le mostraron a la IA cuatro imágenes nuevas (un gato, una cuna, una pelota y un césped) y le preguntaron cuál era la pelota.

En general, la IA eligió la imagen correcta alrededor del 62 por ciento de las veces. El rendimiento casi igualó a un algoritmo de última generación entrenado en 400 millones de pares de imágenes y texto de la web, órdenes de magnitud más de datos que los utilizados para entrenar la IA en el estudio. Descubrieron que vincular imágenes de vídeo con audio era crucial. Cuando el equipo mezcló los fotogramas de vídeo y sus expresiones asociadas, el modelo se rompió por completo.

La IA también podría “pensar” fuera de lo común y generalizar a situaciones nuevas.

En otra prueba, lo entrenaron desde la perspectiva de Sam de un libro ilustrado cuando su padre dijo: "Es un pato y una mariposa". Más tarde, levantó una mariposa de juguete cuando le preguntaron: “¿Puedes hacer la mariposa?” Cuando se le desafió con imágenes de mariposas multicolores, que la IA nunca había visto antes, detectó tres de cada cuatro ejemplos de "mariposa" con una precisión superior al 80 por ciento.

No todos los conceptos de palabras obtuvieron la misma puntuación. Por ejemplo, “cuchara” fue una lucha. Pero vale la pena señalar que, como un duro reCAPTCHA, las imágenes del entrenamiento eran difíciles de descifrar incluso para un humano.

Los problemas crecen

El La IA se basa en avances recientes en el aprendizaje automático multimodal, que combina texto, imágenes, audio o vídeo para entrenar el cerebro de una máquina.

Con información de la experiencia de un solo niño, el algoritmo pudo capturar cómo las palabras se relacionan entre sí y vincular las palabras con imágenes y conceptos. Sugiere que, para los niños pequeños, escuchar palabras y relacionarlas con lo que ven les ayuda a desarrollar su vocabulario.

Eso no quiere decir que otros procesos cerebrales, como las señales sociales y el razonamiento, no entren en juego. Agregar estos componentes al algoritmo podría potencialmente mejorarlo, escribieron los autores.

El equipo planea continuar el experimento. Por ahora, la IA “bebé” sólo aprende de fotogramas de imágenes fijas y tiene un vocabulario compuesto principalmente de sustantivos. La integración de segmentos de video en la capacitación podría ayudar a la IA a aprender verbos porque el video incluye movimiento.

Agregar entonación a los datos del habla también podría ayudar. Los niños aprenden desde temprano que el “hmm” de una madre puede tener significados muy diferentes según el tono.

Pero, en general, combinar la IA y las experiencias de la vida es un método nuevo y poderoso para estudiar tanto el cerebro humano como el de las máquinas. Podría ayudarnos a desarrollar nuevos modelos de IA que aprendan como niños y potencialmente remodelar nuestra comprensión de cómo nuestros cerebros aprenden lenguaje y conceptos.

Crédito de la imagen: Wai Keen Vong

punto_img

Información más reciente

punto_img