Home Tecnología Demoss de tareas de captura de gafas inteligentes en primera persona

Demoss de tareas de captura de gafas inteligentes en primera persona

67
0

Las demostraciones humanas se realizan solo con hornos negros (arriba). La política transfiere cero disparo al robot con el mismo horno (medio) y también se generaliza a una nueva instancia de horno (abajo). Los puntos están codificados por colores para representar la correspondencia. Crédito: Liu et al.

En las últimas décadas, los robots han comenzado a llegar a varios entornos del mundo real, incluidos algunos centros comerciales, aeropuertos y hospitales, así como algunas oficinas y hogares.

Para que los robots se desplegaran a mayor escala, que sirven como asistentes cotidianos confiables, deberían poder completar una amplia gama de tareas y tareas manuales comunes, como limpiar, lavar los platos, cocinar y lavar la ropa.

Los algoritmos de aprendizaje automático de capacitación que permiten a los robots completar con éxito estas tareas pueden ser desafiantes, ya que a menudo requiere datos anotados y/o videos de demostración que muestran a los humanos las tareas. La disposición de métodos más efectivos para recopilar datos para entrenar algoritmos de robótica podría ser muy ventajoso, ya que podría ayudar a ampliar aún más las capacidades de los robots.

Investigadores de la Universidad de Nueva York y UC Berkeley introdujeron recientemente Egozero, un nuevo sistema para recopilar demostraciones centradas en el ego de humanos que completan tareas manuales específicas. Este sistema, introducido en un artículo publicado en el servidor de preimpresión ARXIV, se basa en el uso de las gafas de Project Aria, las gafas inteligentes para la realidad aumentada (AR) desarrollada por Meta.

Crédito: https://egozero-robot.github.io/

“Creemos que la robótica general de uso general se ve en cuello de botella por la falta de datos a escala de Internet, y que la mejor manera de abordar este problema sería recopilar y aprender de los datos humanos en primera persona”, dijo Lerrel Pinto, autor senior del periódico, a Tech Xplore.

“Los objetivos principales de este proyecto eran desarrollar una forma de recopilar datos marcados con acción precisos para el entrenamiento de robots, optimizar para la ergonomía de los wearables de recopilación de datos necesarios y transferir comportamientos humanos a políticas de robot con datos de robot cero”.

Egozero, el nuevo sistema desarrollado por Pinto y sus colegas, se basa en las gafas Smart Smart Project Aria para recopilar fácilmente demostraciones de video de humanos que completan tareas mientras realizan acciones ejecutables por robot, capturadas desde el punto de vista de la persona que usa las gafas.

Estas manifestaciones se pueden usar a su vez para entrenar algoritmos de robótica en nuevas políticas de manipulación, lo que a su vez podría permitir que los robots completen con éxito varias tareas manuales.

“A diferencia de los trabajos anteriores que requieren múltiples cámaras calibradas, dispositivos portátiles de muñeca o guantes de captura de movimiento, Egozero es único en el sentido de que puede extraer estas representaciones 3D con solo gafas inteligentes (gafas inteligentes del Proyecto Aria)”, explicó Ademi Adeniji, estudiante y co-líder del artículo.

“Como resultado, los robots pueden aprender una nueva tarea de tan solo 20 minutos de manifestaciones humanas, sin teleperación”.

Diagrama de arquitectura. Egozero entrena las políticas en un espacio de acción estatal unificado definido como puntos 3D egocéntricos. A diferencia de los métodos anteriores, Egozero localiza los puntos de objeto a través de la triangulación sobre la trayectoria de la cámara, y calcula los puntos de acción a través de la pose de mano de ARIA MPS y un modelo de estimación de manos. Estos puntos supervisan una política de transformador de circuito cerrado, que se implementa en puntos no improjectados de un iPhone durante la inferencia. Crédito: Liu et al.

Para evaluar su sistema propuesto, los investigadores lo usaron para recopilar demostraciones de video de acciones simples que se completan comúnmente en un entorno familiar (por ejemplo, abrir una puerta del horno) y luego usaron estas demostraciones para capacitar un algoritmo de aprendizaje automático.

El algoritmo de aprendizaje automático se desplegó luego en Franka Panda, un brazo robótico con una pinza adjunta al final. En particular, descubrieron que el brazo robótico completó con éxito la mayoría de las tareas en las que lo probaron, incluso si el algoritmo que planea sus movimientos experimentó una capacitación mínima.

“La mayor contribución de Egozero es que puede transferir comportamientos humanos a políticas de robots con datos de robot cero, con solo un par de gafas inteligentes”, dijo Pinto.

“Extiende el trabajo pasado (política de puntos) al mostrar que las representaciones 3D permiten un aprendizaje de robot eficiente de los humanos, pero completamente en el flujo. Esperamos que esto sirva como base para la exploración futura de representaciones y algoritmos para permitir el aprendizaje humano a robot a escala”.

El código para el sistema de recopilación de datos introducido por Pinto y sus colegas se publicó en GitHub y otros equipos de investigación pueden acceder fácilmente a los equipos de investigación.

En el futuro, podría usarse para recopilar rápidamente conjuntos de datos para entrenar algoritmos de robótica, lo que podría contribuir al desarrollo adicional de los robots, lo que finalmente facilita su despliegue en un mayor número de hogares y oficinas en todo el mundo.

“Ahora esperamos explorar las compensaciones entre las representaciones 2D y 3D a mayor escala”, agregó Vincent Liu, estudiante y co-líder de The Paper.

“Egozero y el trabajo pasado (Point Policy, P3PO) solo han explorado las políticas 3D de una sola tarea, por lo que sería interesante extender este marco de aprender de los puntos 3D en forma de un LLM/VLM ajustado, similar a la forma en que se entrenan los modelos modernos de VLA”.

Escrito para usted por nuestro autor Ingrid Fadelli, editado por Lisa Lock, y verificado y revisado por Robert Egan; este artículo es el resultado de un trabajo humano cuidadoso. Confiamos en lectores como usted para mantener vivo el periodismo científico independiente. Si este informe le importa, considere una donación (especialmente mensualmente). Obtendrá una cuenta sin anuncios como agradecimiento.

Más información: Vincent Liu et al, Egozero: Robot Aprendizaje de gafas inteligentes, ARXIV (2025). Doi: 10.48550/arxiv.2505.20290

Información en el diario: ARXIV

© 2025 Science X Network

Cita: Entrenamiento de robots sin robots: demostraciones de tareas en primera persona de captura de gafas inteligentes (2025, 12 de junio) Recuperado el 12 de junio de 2025 de https://techxplore.com/news/2025-06-robots-smart-glasses-capture-person.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.