Home Tecnología El algoritmo permite que un robot ‘piense en el futuro’ y considere...

El algoritmo permite que un robot ‘piense en el futuro’ y considere miles de posibles planes de movimiento simultáneamente

70
0

Descripción general de Cutamp. Crédito: ARXIV (2024). Doi: 10.48550/arxiv.2411.11833

¿Listo para esas tan esperadas vacaciones de verano? Primero, deberá empacar todos los artículos necesarios para su viaje a una maleta, asegurándose de que todo se ajuste de forma segura sin aplastar nada frágil.

Debido a que los humanos poseen fuertes habilidades de razonamiento visual y geométrica, este suele ser un problema sencillo, incluso si puede tomar un poco de Finagling para apretar todo.

Sin embargo, para un robot, es un desafío de planificación extremadamente complejo que requiere pensar simultáneamente sobre muchas acciones, limitaciones y capacidades mecánicas. Encontrar una solución efectiva podría llevar al robot mucho tiempo, si incluso puede encontrar una.

Investigadores de MIT y Nvidia Research han desarrollado un nuevo algoritmo que acelera drásticamente el proceso de planificación del robot. Su enfoque permite que un robot “piense en el futuro” evaluando miles de posibles soluciones en paralelo y luego refinando las mejores para cumplir con las limitaciones del robot y su entorno.

En lugar de probar cada acción potencial a la vez, como muchos enfoques existentes, este nuevo método considera miles de acciones simultáneamente, resolviendo problemas de manipulación de varios pasos en cuestión de segundos.

Los investigadores aprovechan el poder computacional masivo de los procesadores especializados llamadas unidades de procesamiento de gráficos (GPU) para habilitar esta aceleración.

En una fábrica o almacén, su técnica podría permitir a los robots determinar rápidamente cómo manipular y empacar estrechamente elementos que tienen diferentes formas y tamaños sin dañarlos, derribar cualquier cosa o chocar con obstáculos, incluso en un espacio estrecho.

“Esto sería muy útil en entornos industriales donde el tiempo realmente importa y necesita encontrar una solución efectiva lo más rápido posible. Si su algoritmo tarda minutos en encontrar un plan, en lugar de segundos, eso cuesta el dinero del negocio”, dice el estudiante graduado de MIT William Shen SM ’23, autor principal del documento en esta técnica.

Se le une en el periódico Caelan Garrett ’15, Meng ’15, Ph.D. ’21, un científico de investigación senior de Nvidia Research; Nishanth Kumar, un estudiante graduado del MIT; Ankit Goyal, científico de investigación de Nvidia; Tucker Hermans, científico de investigación de Nvidia y profesor asociado en la Universidad de Utah; Leslie Pack Kaelbling, profesor de informática e ingeniería de Panasonic en el MIT y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL); Tomás Lozano-Pérez, profesor del MIT de informática e ingeniería y miembro de CSAIL; y Fabio Ramos, científico principal de investigación de Nvidia y profesor en la Universidad de Sydney.

La investigación se presentará en la Conferencia Robótica: Ciencia y Sistemas celebrada del 21 al 25 de junio en Los Ángeles, California. El documento también está disponible en el servidor ARXIV Preprint.

Planificación en paralelo

El algoritmo de los investigadores está diseñado para lo que se llama Task and Motion Planning (TAMP). El objetivo de un algoritmo TAMP es crear un plan de tareas para un robot, que es una secuencia de acciones de alto nivel, junto con un plan de movimiento, que incluye parámetros de acción de bajo nivel, como posiciones conjuntas y orientación de la pinza, que completa ese plan de alto nivel.

Para crear un plan para empacar elementos en una caja, un robot debe razonar sobre muchas variables, como la orientación final de los objetos empaquetados para que encajen, así como cómo las recogerá y manipularlas usando su brazo y garra.

Debe hacer esto al determinar cómo evitar colisiones y lograr cualquier restricción especificada por el usuario, como un cierto orden para empacar los artículos.

Con tantas secuencias potenciales de acciones, el muestreo posibles soluciones al azar y probar una a la vez podría llevar mucho tiempo.

“Es un espacio de búsqueda muy grande, y muchas acciones que el robot hace en ese espacio en realidad no logra nada productivo”, agrega Garrett.

En cambio, el algoritmo de los investigadores, llamado Cutamp, que se acelera utilizando una plataforma informática paralela llamada CUDA, simula y refina miles de soluciones en paralelo. Lo hace combinando dos técnicas, muestreo y optimización.

El muestreo implica elegir una solución para probar. Pero en lugar de muestrear soluciones al azar, Cutamp limita el rango de soluciones potenciales a las que tienen más probabilidades de satisfacer las limitaciones del problema. Este procedimiento de muestreo modificado permite a Cutamp explorar ampliamente las posibles soluciones al tiempo que reduce el espacio de muestreo.

“Una vez que combinamos las salidas de estas muestras, obtenemos un punto de partida mucho mejor que si probamos al azar. Esto asegura que podamos encontrar soluciones más rápidamente durante la optimización”, dice Shen.

Una vez que Cutamp ha generado ese conjunto de muestras, realiza un procedimiento de optimización paralelo que calcula un costo, que corresponde a qué tan bien cada muestra evita colisiones y satisface las restricciones de movimiento del robot, así como cualquier objetivo definido por el usuario.

Actualiza las muestras en paralelo, elige a los mejores candidatos y repite el proceso hasta que las reduce a una solución exitosa.

Aprovechando la computación acelerada

Los investigadores aprovechan las GPU, procesadores especializados que son mucho más potentes para el cálculo paralelo y las cargas de trabajo que las CPU de uso general, para ampliar la cantidad de soluciones que pueden probar y optimizar simultáneamente. Esto maximizó el rendimiento de su algoritmo.

“Usando GPU, el costo computacional de optimizar una solución es el mismo que optimizar cientos o miles de soluciones”, explica Shen.

Cuando probaron su enfoque sobre los desafíos de embalaje similares a Tetris en la simulación, Cutamp tardó solo unos segundos en encontrar planes exitosos y libres de colisiones que podrían llevar enfoques de planificación secuenciales mucho más tiempo para resolver.

Y cuando se despliega en un brazo robótico real, el algoritmo siempre encontraba una solución en menos de 30 segundos.

El sistema funciona a través de los robots y ha sido probado en un brazo robótico en el MIT y un robot humanoide en Nvidia. Dado que Cutamp no es un algoritmo de aprendizaje automático, no requiere datos de capacitación, lo que podría permitir que se despliegue fácilmente en muchas situaciones.

“Puedes darle un problema nuevo y probablemente lo resolverá”, dice Garrett.

El algoritmo es generalizable a situaciones más allá del embalaje, como un robot usando herramientas. Un usuario podría incorporar diferentes tipos de habilidades en el sistema para expandir automáticamente las capacidades de un robot.

En el futuro, los investigadores quieren aprovechar los modelos de lenguaje grandes y los modelos de lenguaje de visión dentro de Cutamp, lo que permite que un robot formule y ejecute un plan que logre objetivos específicos basados ​​en comandos de voz de un usuario.

Más información: William Shen et al, Tareas y planificación de movimiento paralelizadas por GPU diferenciable, ARXIV (2024). Doi: 10.48550/arxiv.2411.11833

Información en la revista: ARXIV proporcionado por el Instituto de Tecnología de Massachusetts

Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/NewsOffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.

Cita: el algoritmo permite que un robot ‘piense en el futuro’ y considere miles de posibles planes de movimiento simultáneamente (2025, 5 de junio) recuperado el 5 de junio de 2025 de https://techxplore.com/news/2025-06-algorithm-robot-thmotion-potential-motion.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.