Home Tecnología Modelo basado en votos desarrollado para una estimación de pose de objetos...

Modelo basado en votos desarrollado para una estimación de pose de objetos de mano más precisa

117
0

Resultados cualitativos. De izquierda a derecha: entrada RGB y imágenes de profundidad del conjunto de datos DexyCB (14); Imágenes renderizadas usando la mano de la verdad de tierra y poses de objetos; Imágenes renderizadas utilizando posturas de mano de verdad terrestre y posturas de objetos predichas por nuestro método, el método RGB-D (18) y el método RGB (20), y el método de estimación de pose de objeto manual (43). Crédito: Alexandria Engineering Journal (2025). Doi: 10.1016/j.aej.2025.02.017

Muchas aplicaciones robóticas se basan en brazos o manos robóticas para manejar diferentes tipos de objetos. Estimación de la pose de tales objetos portátiles es una tarea importante pero desafiante en robótica, visión por computadora e incluso en aplicaciones de realidad aumentada (AR). Una dirección prometedora es utilizar datos multimodales, como imágenes de color (RGB) y profundidad (D). Con la mayor disponibilidad de sensores 3D, han surgido muchos enfoques de aprendizaje automático para aprovechar esta técnica.

Sin embargo, los enfoques existentes aún enfrentan dos desafíos principales. Primero, enfrentan caídas de precisión cuando las manos ocluyen los objetos sostenidos, oscureciendo las características críticas necesarias para la estimación de pose. Además, las interacciones de objeto manual introducen transformaciones no rígidas, lo que complica aún más el problema. Esto sucede cuando las manos cambian la forma o estructura del objeto sostenido, como cuando se aprieta una bola blanda, distorsionando la forma percibida del objeto.

En segundo lugar, la mayoría de las técnicas actuales extraen características de los troncos RGB y RGB-D separados, que luego se fusionan en el nivel de característica. Dado que estas dos backbons manejan modalidades inherentemente diferentes, esta fusión puede dar como resultado cambios de distribución de representación, lo que significa que las características aprendidas de las imágenes RGB pueden desalinearse con las extraídas de las entradas RGB-D, lo que afecta la estimación de la pose.

Además, durante el ajuste, las interacciones densas entre las dos troncos causan interrupciones del rendimiento y limitan los beneficios de incorporar las características de RGB.

Para abordar estos problemas, un equipo de investigación dirigido por el profesor asociado Phan Xuan Tan del innovador programa global, la Facultad de Ingeniería del Instituto de Tecnología de Shibaura, Japón, junto con el Dr. Dinh-Cuong Hoang y otros investigadores de la Universidad FPT, Vietnam, desarrolló una innovadora red de neural profundo diseñada específicamente para la estimación de poses utilizando imágenes RGB-D.

“The key innovation of our deep learning framework lies in a vote-based fusion mechanism, which effectively integrates both 2D (RGB) and 3D (depth) keypoints, while addressing hand-induced occlusions and the difficulties of fusing multimodal data. Additionally, it decouples the learning process and incorporates a self-attention-based hand-object interaction model, resulting in substantial improvements,” explains Dr. Tan.

Su estudio se puso a disposición en línea el 17 de febrero de 2025 en el Alexandria Engineering Journal.

El marco propuesto de aprendizaje profundo comprende cuatro componentes: backbons para extraer características de alta dimensión de imágenes 2D y datos de nubes de puntos 3D, módulos de votación, un nuevo módulo de fusión basado en votos y un módulo de estimación de pose de objetos conscientes de la mano.

Ejemplo de votos generados proyectados en una imagen 2D. Los puntos verdes indican predicciones precisas estrechamente alineadas con puntos clave de verdad en tierra, mientras que los puntos rojos representan predicciones que se desvían aún más de la verdad en tierra. Crédito: Alexandria Engineering Journal (2025). Doi: 10.1016/j.aej.2025.02.017

Inicialmente, las columnas de 2D y 3D predicen puntos clave 2D y 3D de ambas manos y objetos de las imágenes RGB-D. Los puntos clave se refieren a las ubicaciones significativas en las imágenes de entrada que ayudan a describir la pose de las manos y los objetos. A continuación, los módulos de votación dentro de cada columna vertebral emitieron votos independientemente por sus respectivos puntos clave.

Estos votos se integran mediante el modelo de fusión basado en votos, que combina dinámicamente los votos 2D y 3D utilizando la proyección del vecindario basada en el radio y los mecanismos de atención del canal. El primero conserva la información local, mientras que el segundo se adapta a diferentes condiciones de entrada, asegurando la robustez y la precisión.

Esta fusión basada en votos aprovecha efectivamente las fortalezas de RGB e información de profundidad, mitigando el impacto de las oclusiones y desalineación inducidas por la mano, por lo tanto, permitiendo una estimación precisa de pose de objetos manuales.

El componente final, el módulo de estimación del objeto consciente de la mano, mejora aún más la precisión mediante el uso de un mecanismo de autoatensión para capturar las complejas relaciones entre los puntos clave de mano y los objetos. Esto permite que el sistema tenga en cuenta las transformaciones no rígidas causadas por diferentes posturas y agarres de manos.

Para probar su marco, los investigadores realizaron experimentos en tres conjuntos de datos públicos. Los resultados mostraron mejoras significativas en la precisión (hasta el 15%) y la robustez sobre los enfoques de última generación.

Además, los experimentos en el sitio demostraron una precisión promedio del 76.8%, con mejoras de rendimiento de hasta 13.9% en comparación con los métodos existentes. El marco también logra tiempos de inferencia de hasta 40 milisegundos sin refinamiento y 200 milisegundos con refinamiento, lo que demuestra la aplicabilidad del mundo real.

“Nuestra investigación aborda directamente un cuello de botella de larga data en las industrias de robótica y visión por computadora: la estimación de pose de objetos precisos en escenarios de interacción ocluidos, dinámicos y complejos de objeto manual”, comenta el Dr. Tan.

“Nuestro enfoque no solo es más preciso sino también más simple que muchas técnicas existentes. Tiene el potencial de acelerar el despliegue de sistemas con IA, como líneas de ensamblaje robóticas automatizadas eficientes, robótica asistida humana y tecnologías inmersivas de AR/VR”.

En general, este enfoque innovador representa un paso adelante significativo en la robótica, lo que permite a los robots manejar de manera más efectiva objetos complejos y avanzar en tecnologías AR para modelar interacciones más realistas de objeto manual.

Más información: Dinh-Cuong Hoang et al, fusión multimodal basada en votos para la estimación de pose de objetos de mano, Alexandria Engineering Journal (2025). Doi: 10.1016/j.aej.2025.02.017

Proporcionado por el Instituto de Tecnología de Shibaura

Cita: Modelo basado en votos desarrollado para una estimación de pose de objetos de mano más precisa (2025, 1 de mayo) Recuperado el 1 de mayo de 2025 de https://techxplore.com/news/2025-05-vote basado en accesas–held-pose.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.