La tecnología AI reconstruye las interacciones 3D de objeto manual del video, incluso cuando los elementos están oscurecidos

Resultados de la reconstrucción de interacciones de objeto manual desde varios puntos de vista utilizando el método ‘Bigs’. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2504.09097
Los investigadores de UNIST han desarrollado una tecnología de IA capaz de reconstruir representaciones tridimensionales (3D) de objetos desconocidos manipulados con ambas manos, así como escenas quirúrgicas simuladas que involucran manos entrelazadas e instrumentos médicos. Este avance permite visualizaciones de realidad aumentada (AR) altamente precisa, mejorando aún más las capacidades de interacción en tiempo real.
Dirigido por el profesor Seungryul Baek, de la Escuela de Graduados de Unist, de inteligencia artificial, el equipo introdujo la interacción bimanual 3D Gaussian Splatting (BIGS), un modelo de IA innovador que puede visualizar interacciones complejas entre manos y objetos en 3D utilizando solo una sola entrada de video RGB.
Esta tecnología permite la reconstrucción en tiempo real de la intrincada dinámica del objeto manual, incluso cuando los objetos no están familiarizados o parcialmente oscurecidos. El estudio se publica en el servidor ARXIV preimpresión.
Los enfoques tradicionales en este dominio se han limitado a reconocer solo una mano a la vez o responder únicamente a los objetos pre-escaneados, restringiendo su aplicabilidad en entornos realistas de AR y VR.
Por el contrario, los Bigs pueden predecir de manera confiable las formas de objetos y manos completos, incluso en escenarios donde las piezas están ocultas o ocluidas, y pueden hacerlo sin la necesidad de sensores de profundidad o múltiples cámaras, en relación únicamente con una sola cámara RGB.
El núcleo de este modelo de IA se basa en la estallido gaussiano 3D, una técnica que representa las formas de objeto como una nube de puntos con distribuciones gaussianas suaves.
A diferencia de los métodos de nubes de puntos que producen límites nítidos, la estallido gaussiano permite la reconstrucción natural de las superficies de contacto e interacciones complejas.
El modelo aborda aún más los desafíos de oclusión al alinear múltiples instancias manuales con una estructura gaussiana canónica y emplea un modelo de difusión previamente capacitado para el muestreo de destilación de puntaje (SDS), lo que le permite reconstruir con precisión las superficies invisibles, incluidas la parte posterior de los objetos.
Experimentos extensos que utilizan conjuntos de datos internacionales como Arctic y HO3DV3 demostraron que BIGS supera a las tecnologías existentes para capturar con precisión posturas manuales, formas de objetos, interacciones de contacto y calidad de representación. Estas capacidades tienen una promesa significativa para las aplicaciones en realidad virtual y aumentada, control robótico y simulaciones quirúrgicas remotas.
Esta investigación se realizó con contribuciones del primer autor Jeongwan, junto con Kyeonghwan Gwak, Gunyoung Kang, Junuk Cha, Soohyun Hwang y Hyein Hwang.
El profesor Baek comentó: “Se espera que este avance facilite la reconstrucción de interacción en tiempo real en varios campos, incluidos VR, AR, control robótico y entrenamiento quirúrgico remoto”.
Más información: Jeongwan On et al, Bigs: Reconstrucción de interacción agnóstica de categoría bimanual a partir de videos monoculares a través de Splatting Gaussian 3D, ARXIV (2025). Doi: 10.48550/arxiv.2504.09097
Información en la revista: ARXIV proporcionado por el Instituto Nacional de Ciencia y Tecnología de Ulsan
Cita: la tecnología AI reconstruye las interacciones 3D de objeto manual del video, incluso cuando los elementos están oscurecidos (2025, 13 de junio) recuperado el 13 de junio de 2025 de https://techxplore.com/news/2025-06-ai-technology-reconstructs-3dinteracciones.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.