Ejemplos de poses 3D estimadas en el conjunto de datos H2O: para un ejemplo separado en cada fila, la figura representa (a) imagen de entrada RGB, (b) nuestras consultas de objeto manual, (c) Mapa de contacto de verdad en tierra, (d) Mapa de contacto predicho y (e) resultados finales de estimación de pose 3D, respectivamente. Crédito: Instituto Nacional de Ciencia y Tecnología de Ulsan
Se ha desarrollado un nuevo marco con AI, que ofrece nuevas capacidades para el análisis en tiempo real de dos manos comprometidas en manipular un objeto.
Un equipo de investigación dirigido por el profesor Seungryul Baek de la Escuela de Graduados de Inteligencia Artificial Unist ha introducido el marco de transformador en tiempo real optimizado (Qort-Former) de consulta, que estima con precisión las poses 3D de dos manos y un objeto en tiempo real.
El trabajo se publicó en el servidor de preimpresión ARXIV y se presentó en la Conferencia Anual de AAAI sobre Inteligencia Artificial (AAAI), Pennsylvania, EE. UU.
A diferencia de los métodos anteriores que requieren recursos computacionales sustanciales, Qort-former logra una eficiencia excepcional al tiempo que mantiene la precisión de última generación.
Para optimizar el rendimiento, el equipo propuso una estrategia de división de consulta novedosa que mejora las características de consulta al aprovechar la información de contacto entre las manos y el objeto, junto con una actualización de características de tres pasos dentro del decodificador del transformador. Con solo 108 consultas y un solo decodificador, Qort-former logra 53.5 cuadros por segundo (FPS) en una GPU RTX 3090 TI, lo que lo convierte en el modelo más rápido conocido para la estimación de pose de objeto manual.
El profesor Seungryul Baek declaró: “Qort-former representa un avance significativo en la comprensión de las interacciones del objeto manual. No solo permite aplicaciones en tiempo real en la realidad aumentada (AR), la realidad virtual (VR) y la robótica, sino que también empuja los límites de los modelos AI en tiempo real”.
“Nuestro trabajo demuestra que la eficiencia y la precisión pueden optimizarse simultáneamente”, comentó el co-primero autor Khalequzzaman Sayem. “Anticipamos la adopción más amplia de nuestro método en los campos que requieren un análisis de interacción de objeto de mano en tiempo real”.
Más información: Elkhan Ismayilzada et al, Qort-Former: transformador en tiempo real optimizado para la consulta para comprender dos manos manipulando objetos, ARXIV (2025). Doi: 10.48550/arxiv.2502.19769
Información en la revista: ARXIV proporcionado por el Instituto Nacional de Ciencia y Tecnología de Ulsan
Cita: Estudio presenta el marco de estimación de pose impulsado por la IA, en tiempo real, de manualidad, el 27 de marzo, 27 de marzo) Recuperado el 27 de marzo de 2025 de https://techxplore.com/news/2025-03-unveils-ai-driven-real-pose.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









