Home Tecnología Con la retroalimentación humana, los robots impulsados por la inteligencia artificial aprenden...

Con la retroalimentación humana, los robots impulsados por la inteligencia artificial aprenden las tareas mejor y más rápido

9
0

Al estudiar demostraciones y aprender tanto de la retroalimentación humana como de sus propios intentos del mundo real, un nuevo protocolo de capacitación con IA desarrollado en UC Berkeley enseña a los robots cómo realizar tareas complicadas como ensamblar una correa de distribución con una tasa de éxito del 100%. Crédito: Universidad de California – Berkeley Robotics AI y Labing Lab

En UC Berkeley, los investigadores de la IA robótica de Sergey Levine y el laboratorio de aprendizaje observaron una mesa donde una torre de 39 bloques de Jenga estaba perfectamente apilada. Luego, un robot blanco y negro, su extremidad individual se duplicó como una jirafa encorvada, se acercó a la torre, blandiendo un látigo de cuero negro. A través de lo que podría haber parecido a un espectador casual como un milagro de la física, el látigo golpeó precisamente el lugar correcto para enviar un solo bloque volando desde la pila mientras el resto de la torre permanecía estructuralmente sólido.

Esta tarea, conocida como “Jenga Whipping”, es un pasatiempo perseguido por personas con la destreza y los reflejos para lograrlo. Ahora, ha sido dominado por robots, gracias a un novela, método de entrenamiento con IA creado por Levine y otros miembros del equipo.

El nuevo sistema, llamado Ejemplo humano en el bucle Aprendizaje de refuerzo robótico eficiente (Hil-serl), es descrito en un estudio Apareciendo el 20 de agosto en la revista Science Robotics.

Al estudiar demostraciones y aprender tanto de la retroalimentación humana como de sus propios intentos del mundo real, este protocolo de capacitación enseña a los robots cómo realizar tareas complicadas como Jenga Whipping con una tasa de éxito del 100%. Además, los robots se enseñan a una velocidad impresionante, lo que les permite aprender dentro de una o dos horas cómo ensamblar perfectamente una placa base de la computadora, construir un estante y más.

La primera vez que el robot conquistó el Jenga Whipping Challenge, “eso realmente me sorprendió”, dijo el primer autor del estudio Jianlan Luo, investigador postdoctoral en UC Berkeley. “La tarea de Jenga es muy difícil para la mayoría de los humanos. Lo probé con un látigo en la mano; tuve una tasa de éxito del 0%”.

En los últimos años, el campo de aprendizaje de robots ha tratado de descifrar el desafío de cómo enseñar actividades de máquinas que son impredecibles o complicadas, a diferencia de una sola acción, como recoger repetidamente un objeto de un lugar particular en una cinta transportadora. Para resolver este dilema, el laboratorio de Levine se ha centrado en lo que se llama “aprendizaje de refuerzo”. En el aprendizaje de refuerzo, un robot intenta una tarea en el mundo real y, utilizando comentarios de las cámaras, aprende de sus errores para eventualmente dominar esa habilidad.

El nuevo estudio agregó intervención humana para acelerar este proceso. Con un mouse especial que controla el robot, un humano puede corregir el curso del robot, y esas correcciones pueden incorporarse al banco de memoria proverbial del robot. Utilizando el aprendizaje de refuerzo, el robot analiza la suma de todos sus intentos, asistidos y no asistidos, exitosos y sin éxito, para realizar mejor su tarea. Luo dijo que un humano necesitaba intervenir cada vez menos como el robot aprendió de la experiencia.

“Necesitaba cuidar el robot durante tal vez el primer 30% o algo así, y luego, gradualmente, podría prestar menos atención”, dijo.

Al estudiar demostraciones y aprender tanto de la retroalimentación humana como de sus propios intentos del mundo real, un nuevo protocolo de capacitación con IA desarrollado en UC Berkeley enseña a los robots cómo realizar tareas complicadas como Jenga Whipping con una tasa de éxito del 100%. Crédito: Universidad de California – Berkeley Robotics AI y Labing Lab

El laboratorio puso su sistema robótico a través de un guante de tareas complicadas más allá de Jenga Whipping. El robot volteó un huevo en una sartén; pasó un objeto de un brazo a otro; y ensambló una placa base, tablero de control y correa de distribución. Los investigadores seleccionaron estos desafíos porque eran variados, y en las palabras de Luo, representaban “todo tipo de incertidumbre al realizar tareas robóticas en el complejo mundo real”.

Los investigadores también probaron la adaptabilidad de los robots al organizar percances. Obligaban a una pinza a abrirse para que dejara caer un objeto o moviera una placa base mientras el robot intentaba instalar un microchip, entrenándolo para reaccionar a una situación cambiante que podría encontrar fuera de un entorno de laboratorio.

Al final de la capacitación, el robot podría ejecutar estas tareas correctamente el 100% del tiempo. Los investigadores compararon sus resultados con un método común de “copiar mi comportamiento” conocido como clonación conductual que fue entrenada en la misma cantidad de datos de demostración; Su nuevo sistema hizo que los robots fueran más rápidos y precisos.

Estas métricas son cruciales, dijo Luo, porque el bar para la competencia de los robots es muy alto. Los consumidores e industriales habituales no quieren comprar un robot inconsistente. Luo enfatizó que, en particular, los procesos de fabricación “hechos a la orden” como los que a menudo se usan para electrónica, automóviles y piezas aeroespaciales podrían beneficiarse de robots que pueden aprender de manera confiable y adaptable una variedad de tareas.

El siguiente paso, dijo Luo, sería pre-entrenar el sistema con capacidades básicas de manipulación de objetos, eliminando la necesidad de aprender a los cero y, en cambio, progresar directamente para adquirir habilidades más complejas. El laboratorio también eligió hacer su código abierto de investigación para que otros investigadores pudieran usar y construir sobre él.

“Un objetivo clave de este proyecto es hacer que la tecnología sea accesible y fácil de usar como iPhone”, dijo Luo. “Creo firmemente que cuantas más personas puedan usarlo, mayor impacto podremos tener”.

Los autores adicionales del estudio incluyen Charles Xu y Jeffrey Wu de UC Berkeley.

Más información: Jianlan Luo et al, manipulación robótica precisa y hábil a través del aprendizaje de refuerzo humano en el circuito, Science Robotics (2025). Doi: 10.1126/scirobotics.ads5033

Proporcionado por la Universidad de California – Berkeley

Cita: Con la retroalimentación humana, los robots con IA aprenden tareas mejor y más rápidas (2025, 20 de agosto) recuperado el 20 de agosto de 2025 de https://techxplore.com/news/2025-08-human-feedback-ai-hriven-robots.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias