Logotipo de Zephyrnet

Esta IA de DeepMind aprende rápidamente nuevas habilidades con solo observar a los humanos

Fecha:

Enseñar algoritmos para imitar a los humanos normalmente requiere cientos o miles de ejemplos. Pero una nueva IA de Google DeepMind puede adquirir nuevas habilidades de manifestantes humanos sobre la marcha.

Uno de los mayores trucos de la humanidad es nuestra capacidad de adquirir conocimientos unos de otros de forma rápida y eficiente. Este tipo de aprendizaje social, a menudo denominado transmisión cultural, es lo que nos permite mostrarle a un colega cómo utilizar una nueva herramienta o enseñarles canciones infantiles a nuestros hijos.

No sorprende que los investigadores hayan intentado replicar el proceso en máquinas. El aprendizaje por imitación, en el que la IA observa a un humano completar una tarea y luego intenta imitar su comportamiento, ha sido durante mucho tiempo un enfoque popular para entrenar robots. Pero incluso los algoritmos de aprendizaje profundo más avanzados de la actualidad suelen necesitar ver muchos ejemplos antes de poder copiar con éxito a sus entrenadores.

Cuando los humanos aprenden a través de la imitación, a menudo pueden aprender nuevas tareas después de sólo un puñado de demostraciones. Ahora, los investigadores de Google DeepMind han dado un paso hacia el rápido aprendizaje social en IA con agentes que aprenden a navegar por un mundo virtual de humanos en tiempo real.

"Nuestros agentes logran imitar en tiempo real a un ser humano en contextos novedosos sin utilizar ningún dato humano recopilado previamente", escriben los investigadores en un papel en Nature Communications. "Identificamos un conjunto sorprendentemente simple de ingredientes suficientes para generar transmisión cultural”.

Los investigadores entrenaron a sus agentes en un simulador especialmente diseñado llamado GoalCycle3D. El simulador utiliza un algoritmo para generar un número casi infinito de entornos diferentes basándose en reglas sobre cómo debe funcionar la simulación y qué aspectos deben variar.

En cada entorno, pequeñas burbujas Agentes de inteligencia artificial Debes navegar por terrenos irregulares y varios obstáculos para atravesar una serie de esferas de colores en un orden específico. Los baches del terreno, la densidad de los obstáculos y la configuración de las esferas varían según el entorno.

Los agentes están capacitados para navegar usando aprendizaje reforzado. Obtienen una recompensa por atravesar las esferas en el orden correcto y utilizan esta señal para mejorar su desempeño durante muchas pruebas. Pero además, los entornos también cuentan con un agente experto, codificado o controlado por un humano, que ya conoce la ruta correcta a través del curso.

A lo largo de muchas sesiones de entrenamiento, los agentes de IA aprenden no sólo los fundamentos de cómo funcionan los entornos, sino también que la forma más rápida de resolver cada problema es imitar al experto. Para garantizar que los agentes aprendieran a imitar en lugar de simplemente memorizar los cursos, el equipo los capacitó en un conjunto de entornos y luego los probó en otro. Fundamentalmente, después del entrenamiento, el equipo demostró que sus agentes podían imitar a un experto y continuar siguiendo la ruta incluso sin el experto.

Esto requirió algunos ajustes en los enfoques estándar de aprendizaje por refuerzo.

Los investigadores hicieron que el algoritmo se centrara en el experto haciendo que predijera la ubicación del otro agente. También le dieron un módulo de memoria. Durante el entrenamiento, el experto entraba y salía de los entornos, lo que obligaba al agente a memorizar sus acciones para cuando ya no estuviera presente. La IA también se entrenó en un amplio conjunto de entornos, lo que garantizó que viera una amplia gama de tareas posibles.

Sin embargo, podría resultar difícil trasladar el enfoque a ámbitos más prácticos. Una limitación clave es que cuando los investigadores probaron si la IA podía aprender de las demostraciones humanas, el agente experto fue controlado por una persona durante todas las ejecuciones de entrenamiento. Eso hace que sea difícil saber si los agentes podrían aprender de una variedad de personas.

Lo que es más urgente, la capacidad de alterar aleatoriamente el entorno de entrenamiento sería difícil de recrear en el mundo real. Y la tarea subyacente era simple, no requería control motor fino y se realizaba en entornos virtuales altamente controlados.

Aún así, el progreso del aprendizaje social en IA es bienvenido. Si vamos a vivir en un mundo con máquinas inteligentes, será crucial encontrar formas eficientes e intuitivas de compartir nuestra experiencia y conocimientos con ellas.

Crédito de la imagen: Juliana y Mariana Amorim / Unsplash

punto_img

Información más reciente

punto_img