Logotipo de Zephyrnet

Mostrando a los robots cómo hacer tus tareas

Fecha:

La capacitación de robots interactivos algún día puede ser un trabajo fácil para todos, incluso para aquellos sin experiencia en programación. Los robotistas están desarrollando robots automatizados que pueden aprender nuevas tareas únicamente observando a los humanos. En casa, algún día podrías mostrarle a un robot doméstico cómo hacer tareas rutinarias. En el lugar de trabajo, puede entrenar robots como nuevos empleados, mostrándoles cómo realizar muchas tareas.

Al avanzar en esa visión, los investigadores del MIT han diseñado un sistema que permite que este tipo de robots aprendan tareas complicadas que de otra forma los obstaculizarían con demasiadas reglas confusas. Una de esas tareas es poner una mesa en ciertas condiciones.  

En esencia, el sistema de “Planificación con especificaciones inciertas” (PUnS) de los investigadores brinda a los robots la capacidad de planificación similar a la humana para sopesar simultáneamente muchos requisitos ambiguos y potencialmente contradictorios para alcanzar un objetivo final. Al hacerlo, el sistema siempre elige la acción más probable a realizar, basándose en una "creencia" sobre algunas especificaciones probables para la tarea que se supone que debe realizar.

En su trabajo, los investigadores compilaron un conjunto de datos con información sobre cómo ocho objetos (una taza, un vaso, una cuchara, un tenedor, un cuchillo, un plato, un plato pequeño y un tazón) podrían colocarse sobre una mesa en varias configuraciones. Un brazo robótico observó por primera vez demostraciones humanas seleccionadas al azar de poner la mesa con los objetos. Luego, los investigadores asignaron al brazo la tarea de establecer automáticamente una mesa en una configuración específica, en experimentos del mundo real y en simulación, en función de lo que había visto.

Para tener éxito, el robot tuvo que sopesar muchos posibles pedidos de ubicación, incluso cuando los artículos se eliminaron, apilaron u ocultaron a propósito. Normalmente, todo eso confundiría demasiado a los robots. Pero el robot de los investigadores no cometió errores en varios experimentos del mundo real, y solo unos pocos errores en decenas de miles de pruebas simuladas.  

"La visión es poner la programación en manos de expertos en dominios, que pueden programar robots de manera intuitiva, en lugar de describir órdenes a un ingeniero para agregar a su código", dice el primer autor Ankit Shah, un estudiante graduado en el Departamento de Aeronáutica y Astronáutica (AeroAstro) y el Interactive Robotics Group, quienes enfatizan que su trabajo es solo un paso para cumplir esa visión. “De esa manera, los robots ya no tendrán que realizar tareas preprogramadas. Los trabajadores de la fábrica pueden enseñarle a un robot a realizar múltiples tareas complejas de ensamblaje. Los robots domésticos pueden aprender a apilar armarios, cargar el lavavajillas o poner la mesa a la gente en casa ".

Se unen a Shah en el papel el estudiante graduado de AeroAstro y Interactive Robotics Group, Shen Li, y la líder del Grupo de Robótica Interactiva, Julie Shah, profesora asociada en AeroAstro y el Laboratorio de Ciencias de la Computación e Inteligencia Artificial.

Apuestas de cobertura de bots

Los robots son buenos planificadores en tareas con "especificaciones" claras, que ayudan a describir la tarea que el robot debe cumplir, considerando sus acciones, entorno y objetivo final. Aprender a poner una mesa observando demostraciones está lleno de especificaciones inciertas. Los artículos deben colocarse en ciertos lugares, según el menú y el lugar donde se sientan los invitados, y en ciertos pedidos, según la disponibilidad inmediata de un artículo o las convenciones sociales. Los enfoques actuales de planificación no son capaces de tratar con especificaciones tan inciertas.

Un enfoque popular para la planificación es el "aprendizaje de refuerzo", una técnica de aprendizaje automático de prueba y error que los recompensa y penaliza por las acciones mientras trabajan para completar una tarea. Pero para tareas con especificaciones inciertas, es difícil definir recompensas y sanciones claras. En resumen, los robots nunca aprenden completamente lo correcto de lo incorrecto.

El sistema de los investigadores, llamado PUnS (para planificar con especificaciones inciertas), permite que un robot tenga una "creencia" en un rango de posibles especificaciones. La creencia en sí misma se puede utilizar para repartir recompensas y sanciones. "El robot esencialmente está cubriendo sus apuestas en términos de lo que se pretende en una tarea, y toma acciones que satisfacen su creencia, en lugar de que le demos una especificación clara", dice Ankit Shah.

El sistema se basa en la "lógica temporal lineal" (LTL), un lenguaje expresivo que permite el razonamiento robótico sobre los resultados actuales y futuros. Los investigadores definieron plantillas en LTL que modelan varias condiciones basadas en el tiempo, como lo que debe suceder ahora, eventualmente debe suceder y debe suceder hasta que ocurra algo más. Las observaciones del robot de 30 demostraciones humanas para poner la mesa arrojaron una distribución de probabilidad sobre 25 fórmulas LTL diferentes. Cada fórmula codificó una preferencia o especificación ligeramente diferente para establecer la tabla. Esa distribución de probabilidad se convierte en su creencia.

"Cada fórmula codifica algo diferente, pero cuando el robot considera varias combinaciones de todas las plantillas, y trata de satisfacer todo junto, finalmente termina haciendo lo correcto", dice Ankit Shah.

Siguiendo criterios

Los investigadores también desarrollaron varios criterios que guían al robot para satisfacer toda la creencia sobre esas fórmulas candidatas. Uno, por ejemplo, satisface la fórmula más probable, que descarta todo lo demás aparte de la plantilla con la mayor probabilidad. Otros satisfacen el mayor número de fórmulas únicas, sin considerar su probabilidad general, o satisfacen varias fórmulas que representan la probabilidad total más alta. Otro simplemente minimiza el error, por lo que el sistema ignora las fórmulas con alta probabilidad de falla.

Los diseñadores pueden elegir cualquiera de los cuatro criterios para preestablecer antes del entrenamiento y las pruebas. Cada uno tiene su propio compromiso entre flexibilidad y aversión al riesgo. La elección de los criterios depende completamente de la tarea. En situaciones críticas de seguridad, por ejemplo, un diseñador puede elegir limitar la posibilidad de falla. Pero donde las consecuencias del fracaso no son tan graves, los diseñadores pueden optar por dar a los robots una mayor flexibilidad para probar diferentes enfoques.

Con los criterios establecidos, los investigadores desarrollaron un algoritmo para convertir la creencia del robot, la distribución de probabilidad que apunta a la fórmula deseada, en un problema de aprendizaje de refuerzo equivalente. Este modelo enviará un ping al robot con una recompensa o penalización por una acción que realice, según la especificación que se decida seguir.

En las simulaciones que le pidieron al robot que pusiera la mesa en diferentes configuraciones, solo cometió seis errores de 20,000 intentos. En demostraciones del mundo real, mostró un comportamiento similar a cómo un humano realizaría la tarea. Si un elemento no se veía inicialmente, por ejemplo, el robot terminaría de configurar el resto de la tabla sin el elemento. Luego, cuando se revelaba el tenedor, colocaría el tenedor en el lugar adecuado. "Ahí es donde la flexibilidad es muy importante", dice Ankit Shah. "De lo contrario, se atascaría cuando espera colocar un tenedor y no terminar el resto de la configuración de la mesa".

A continuación, los investigadores esperan modificar el sistema para ayudar a los robots a cambiar su comportamiento en función de instrucciones verbales, correcciones o la evaluación de un usuario del rendimiento del robot. “Digamos que una persona le muestra a un robot cómo poner una mesa en un solo lugar. La persona puede decir: 'haz lo mismo para todos los demás puntos' o 'coloca el cuchillo antes del tenedor aquí' ”, dice Ankit Shah. "Queremos desarrollar métodos para que el sistema se adapte naturalmente para manejar esos comandos verbales, sin necesidad de demostraciones adicionales".  


Temas: Investigación, Informática y tecnología, Algoritmos, Inteligencia Artificial, Aprendizaje automático, Robots, Robótica, Tecnología de asistencia, Ingeniería aeronáutica y astronáutica., Laboratorio de Informática e Inteligencia Artificial (CSAIL), Escuela de Ingeniería

Fuente: http://news.mit.edu/2020/showing-robots-learn-chores-0306

punto_img

Información más reciente

punto_img