Logotipo de Zephyrnet

La IA de IBM aprende a navegar por una casa virtual usando el sentido común

Fecha:

Comparte este artículo:

Sabes que una camisa pertenece a un armario. Sé que una camisa pertenece a un armario. ¿Una IA sabe eso?

Por lo general, no.

Pero puede aprender interactuando con el mundo que lo rodea. Queríamos impulsar esta técnica, conocida como aprendizaje reforzado, inyectando sentido común en un modelo de IA y ayudándolo a aprender más rápido.

En un artículo reciente, “Agentes de RL basados ​​en texto con conocimiento de sentido común: nuevos desafíos, entornos y líneas de base”, presentado en la Conferencia AAAI sobre Inteligencia Artificial de 2021, describimos una IA que compensa la “exploración” del mundo con la “explotación” de su estrategia de acción para maximizar las recompensas. En el aprendizaje por refuerzo, una IA obtiene una recompensa, como una bolsa de oro detrás de una puerta cerrada en un videojuego, cada vez que alcanza estados deseables específicos.

Hemos mejorado en gran medida esta compensación entre exploración y explotación mediante el uso de conocimientos de sentido común adicionales, en forma de texto colaborativo. Nuestro trabajo podría conducir a mejores aplicaciones de mapas y navegación, y a una nueva generación de agentes de asistencia interactivos capaces de razonar como humanos.

Haciéndolo como un juego

El aprendizaje por refuerzo ha sido un área de enfoque importante en la comunidad de IA, pero sigue siendo un problema muy intratable y no escalable. Para abordarlo, optamos por una aplicación similar a un juego de procesamiento de lenguaje natural (NLP), inspirada en juegos como Dungeons & Dragons y Zork.

En la aplicación, un jugador o una IA interactúa con el mundo principalmente a través de texto. El “mundo” envía mensajes al agente y el agente devuelve acciones en forma de comandos u oraciones. Por ejemplo, el entorno puede enviar una observación como: “Estás en una habitación. Hay dos puertas que conducen al norte y al oeste. Ves una caja. En respuesta a esto, el agente de IA puede emitir un comando, como: "Ve al oeste".

Una aplicación popular basada en texto entre los investigadores de IA es TextWorld de Microsoft. Involucra a un agente de IA en un entorno hogareño. La IA se mueve aprendiendo a navegar entre las habitaciones e interactuar con los objetos que se encuentran en una casa, usando solo interacciones basadas en texto. La mayoría de las IA basadas en el aprendizaje por refuerzo encuentran que dicha navegación es un desafío cuando el tamaño del problema aumenta más allá de unas pocas habitaciones y objetos.

Decidimos "actualizar" las habilidades de la IA introduciéndola al conocimiento externo de sentido común sobre el mundo. Queríamos que el sistema "supiera" que las manzanas, por ejemplo, se almacenan en la nevera, mientras que un cuchillo se almacena en un cajón, ¿y las camisas? En el ropero. Una vez que la IA tuvo estos datos, queríamos medir una mejora en su eficiencia y rendimiento en la resolución de tareas.

Para hacerlo, desarrollamos una extensión del entorno donde dicho conocimiento sería crucial: el llamado entorno TextWorld Commonsense (TWC). Se basa en el sistema TextWorld para generar problemas y mundos que requieren el uso de conocimiento de sentido común para ser resueltos de manera eficiente. Al igual que con la medición de los resultados de aprendizaje de un estudiante y el impacto del material del curso externo, es fundamental crear un entorno de prueba para medir todos los aspectos del aprendizaje.

Conseguir una IA para ordenar

Una vez construido el TWC, decidimos centrarnos en la tarea de limpiar la casa. Colocamos la IA de aprendizaje por refuerzo en un mundo virtual con múltiples objetos y contenedores en diferentes salas. El trabajo de la IA consistía en recoger objetos extraviados y colocarlos en los contenedores correctos, navegando entre habitaciones si era necesario. El sentido común fue crucial para que la máquina completara una tarea tan aparentemente inocua. La IA simplemente no tenía otra forma de saber a dónde pertenecía un tipo de objeto específico; por ejemplo, una camisa verde pertenecía en el armario. Sin ese conocimiento de sentido común, el agente tendría que probar diferentes combinaciones al azar, un problema bastante insoluble.

Luego ejecutamos una tarea de anotación humana para medir el desempeño humano en este nuevo entorno. Específicamente, configuramos una interfaz interactiva donde los jugadores humanos podían jugar en el TWC y registrar sus acciones para problemas de diferentes tamaños. Los anotadores jugaron más de 100 juegos, lo que nos permitió establecer una base de desempeño humano en diferentes dificultades de tareas: fácil, media y difícil.

A continuación, evaluamos el rendimiento de diferentes IA de aprendizaje por refuerzo en estos problemas. Evaluamos los agentes de última generación existentes que se basaban únicamente en la información textual del juego. Y comparamos su desempeño con el de una IA que tenía acceso a conocimiento adicional de sentido común de fuentes de conocimiento externas como ConceptNet.

Esto nos permitió determinar cuán valioso era realmente el conocimiento del sentido común para una IA. Resultó que sí: en la configuración "fácil", los agentes dotados de sentido común pudieron reducir a la mitad la cantidad de pasos necesarios para resolver problemas en comparación con los agentes que solo tenían acceso al texto del juego. También hubo aumentos significativos en la puntuación en todos los niveles de dificultad con el uso del conocimiento del sentido común. Fundamentalmente, estos resultados se aplicaron tanto a problemas de distribución como fuera de distribución, lo que demuestra que, además de mejorar la eficiencia de los agentes de IA, el conocimiento del sentido común también los ayuda a generalizar a escenarios no vistos, al igual que los humanos.

Cómo la IA limpia la cocina.

lidiar con el ruido

Si bien agregar sentido común a una máquina puede ser importante, no siempre es fácil.

La mayoría de los repositorios de conocimiento externo de sentido común, como ConceptNet, se obtienen a través de la web. La información puede estar incompleta o duplicada, a menudo con fuentes dudosas. Clasificar estos datos de millones de conceptos y relaciones que asocian esos conceptos es increíblemente complicado. La comunidad de PNL actualmente está ocupada abordando este problema.

Luego está el desafío de la escala. Dados los límites en el poder de cómputo y la necesidad de equilibrar los resultados deseados con la cantidad de energía y el tiempo dedicado a entrenar algoritmos, es crucial mejorar la aproximación y la ampliación.

Finalmente, existe un desafío exclusivo de los juegos basados ​​en texto como TextWorld: el rendimiento básico humano. Como mostró nuestra tarea de anotación humana, los humanos pueden resolver este tipo de tareas con bastante naturalidad, y su rendimiento supera incluso a la mejor IA de aprendizaje por refuerzo. Esta brecha en el rendimiento entre las mejores IA y los humanos es un área clave para mejorar, y estamos tratando de reducir esta brecha utilizando más información del juego.

Para animar a la comunidad de investigación a construir sobre la plataforma TextWorld Commonsense (TWC) que creamos, hemos abierto la plataforma y todo el código, disponible en GitHub.

Dr. Mrinmaya Sachan, profesor asistente de Aprendizaje Automático y Procesamiento del Lenguaje Natural en ETH Zurich también contribuyó a este artículo.

IA de investigación de IBM se enorgullece de patrocinar AAAI2021 como patrocinador platino. Presentaremos 40 documentos de seguimiento principal, además de al menos siete documentos de taller, 10 demostraciones, cuatro documentos de IAAI y un tutorial. IBM Research AI también está coorganizando tres talleres. Esperamos que pueda unirse a nosotros del 2 al 9 de febrero para obtener más información sobre nuestra investigación. Para ver nuestra presencia completa en AAAI 2021, visite esta página.

Inventando lo que sigue.

Manténgase actualizado con los últimos anuncios, investigaciones y eventos de IBM Research a través de nuestro boletín.

punto_img

Información más reciente

punto_img