Crédito: UIUC HCA Lab
A pesar de las décadas de progreso, la mayoría de los robots todavía están programados para tareas específicas y repetitivas. Luchan con lo inesperado y no pueden adaptarse a nuevas situaciones sin una reprogramación minuciosa. Pero, ¿qué pasaría si pudieran aprender a usar herramientas tan naturalmente como un niño viendo videos?
Todavía recuerdo la primera vez que vi uno de los robots de nuestro laboratorio voltear un huevo en una sartén. No fue preprogramado. Nadie lo estaba controlando con un joystick. El robot simplemente había visto un video de un humano haciéndolo, y luego lo hizo en sí mismo. Para alguien que ha pasado años pensando en cómo hacer que los robots sean más adaptables, ese momento fue emocionante.
Nuestro equipo en la Universidad de Illinois Urbana-Champaign, junto con colaboradores en la Universidad de Columbia y UT Austin, ha estado explorando esa misma pregunta. ¿Podrían los robots ver a alguien golpear un clavo o sacar una albóndiga, y luego descubrir cómo hacerlo ellos mismos, sin sensores costosos, trajes de captura de movimiento o horas de teleperación remota?
Esa idea nos llevó a crear un nuevo marco que llamamos “Herramienta como interfaz,” actualmente disponible en el servidor de preimpresión ARXIV. El objetivo es sencillo: enseñar habilidades de uso de herramientas complejas y dinámicas de robots que no usa nada más que videos ordinarios de personas que realizan tareas cotidianas. Todo lo que se necesita son dos vistas de cámaras de la acción, algo que podría capturar con un par de teléfonos inteligentes.
Crédito: UIUC HCA Lab
Así es como funciona. El proceso comienza con esos dos marcos de video, que un modelo de visión llamado MAST3R usa para reconstruir un modelo tridimensional de la escena. Luego, utilizando un método de renderizado conocido como Splatting Gaussian 3D, pense en pintar digitalmente una imagen 3D de la escena, generamos puntos de vista adicionales para que el robot pueda “ver” la tarea desde múltiples ángulos.
Pero la verdadera magia ocurre cuando eliminamos digitalmente al humano de la escena. Con la ayuda de “Sam Sam”, nuestro sistema aísla solo la herramienta y su interacción con el entorno. Es como decirle al robot: “Ignora al humano y solo presta atención a lo que está haciendo la herramienta”.
Esta perspectiva “centrada en la herramienta” es el ingrediente secreto. Significa que el robot no está tratando de copiar movimientos de mano humanos, sino que está aprendiendo la trayectoria exacta y la orientación de la herramienta misma. Esto permite que la habilidad se transfiera entre diferentes robots, independientemente de cómo se configuren sus brazos o cámaras.
Probamos esto en cinco tareas: martillar un clavo, sacar una albóndiga, voltear comida en una sartén, equilibrar una botella de vino e incluso patear una bola de fútbol en un gol. Estos no son trabajos simples de selección y lugar; Requieren velocidad, precisión y adaptabilidad. En comparación con los métodos de teleperación tradicionales, la herramienta como interfaz alcanzó tasas de éxito 71% más altas y recopiló datos de capacitación un 77% más rápido.
Una de mis pruebas favoritas involucró a un robot que sacaba albóndigas mientras un humano se lanzaba en más tareas. El robot no dudó, simplemente se adaptó. En otro, volteó un huevo suelto en una sartén, un movimiento notoriamente complicado para los robots teleoperados.
“Nuestro enfoque se inspiró en la forma en que los niños aprenden, que es viendo adultos”, dijo mi colega y autor principal Haonan Chen. “No necesitan operar la misma herramienta que la persona que están viendo; pueden practicar con algo similar. Queríamos saber si podríamos imitar esa habilidad en los robots”.
Video de explicación técnica. Crédito: UIUC HCA Lab
Estos resultados apuntan hacia algo más grande que solo mejores demostraciones de laboratorio. Al eliminar la necesidad de operadores expertos o hardware especializado, podemos imaginar robots aprendiendo de videos de teléfonos inteligentes, clips de YouTube o incluso imágenes de crowdsourced.
“A pesar de una gran exageración en torno a los robots, todavía están limitados en el que pueden operar de manera confiable y generalmente son mucho peores que los humanos en la mayoría de las tareas”, dijo la profesora Katie Driggs-Campbell, quien lidera nuestro laboratorio.
“Estamos interesados en diseñar marcos y algoritmos que permitan a los robots aprender fácilmente de personas con un esfuerzo de ingeniería mínimo”.
Por supuesto, todavía hay desafíos. En este momento, el sistema supone que la herramienta está rígidamente fija a la pinza del robot, lo que no siempre es cierto en la vida real. A veces también lucha con errores de estimación de pose 6D, y las vistas de la cámara sintetizadas pueden perder el realismo si el cambio de ángulo es demasiado extremo.
En el futuro, queremos que el sistema de percepción sea más robusto, para que un robot pueda, por ejemplo, ver a alguien usar un tipo de bolígrafo y luego aplicar esa habilidad a bolígrafos de diferentes formas y tamaños.
Incluso con estas limitaciones, creo que estamos viendo un cambio profundo en cómo los robots pueden aprender, lejos de la programación minuciosa y hacia la observación natural. Miles de millones de cámaras ya están grabando cómo los humanos usan herramientas. Con los algoritmos correctos, esos videos podrían convertirse en material de entrenamiento para la próxima generación de robots adaptables y útiles.
Esta investigación, que fue honrada con el premio al mejor artículo en el taller de ICRA 2025 en modelos de cimientos y la IA simbólica neuronal (NESY) para la robótica, es un paso crítico para desbloquear ese potencial, transformando el vasto océano de video grabado humano en una biblioteca de entrenamiento global para robots que pueden aprender y adaptarse tan naturalmente como un niño.
Esta historia es parte de Diálogo de ciencias xdonde los investigadores pueden informar los resultados de sus artículos de investigación publicados. Visite esta página Para obtener información sobre el diálogo de Science X y cómo participar.
Más información: Haonan Chen et al, herramienta como interfaz: políticas de robot de aprendizaje del uso de herramientas humanas a través del aprendizaje de imitación, ARXIV (2025). Doi: 10.48550/arxiv.2504.04612
Información en el diario: ARXIV
Cheng Zhu es el segundo autor de la herramienta como interfaz: políticas de robot de aprendizaje del uso de herramientas humanas a través del aprendizaje de imitación, la ingeniería informática de UIUC BS, Upenn MSE Robo
Cita: Los robots ahora pueden aprender a usar herramientas: solo mirándonos (2025, 23 de agosto) recuperado el 23 de agosto de 2025 de https://techxplore.com/news/2025-08-robots-tools.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









