Crédito: Instituto Nacional de Ciencia y Tecnología de Ulsan
Se ha desarrollado una tecnología avanzada de inteligencia artificial (IA) que puede extraer estructura espacial tridimensional (3D) e información de objetos dentro de entornos interiores utilizando una sola fotografía panorámica de 360 grados. Se espera que este avance afecte significativamente los campos que requieren una comprensión espacial precisa, incluida la realidad aumentada (AR), la realidad mixta (MR) y las aplicaciones gemelas digitales.
Dirigido por el profesor Kyungdon Joo de la Escuela de Graduados de Inteligencia Artificial en UNIST, el equipo de investigación introdujo Hush (comprensión de la escena 3D panorámica holística utilizando armónicos esféricos), un modelo de IA, capaz de extraer simultáneamente configuraciones espaciales y detalles de objetos internos de imágenes panorámicas con notable precisión.
En las tecnologías AR y MR, la integración de contenido digital con espacios del mundo real requiere que los sistemas de IA interpreten y representen con precisión información como posiciones de pared y muebles, así como distancias entre objetos. Tradicionalmente, lograr este nivel de comprensión ha requerido múltiples imágenes desde diferentes ángulos o equipos costosos, como sensores de profundidad.
El modelo Hush avanza más allá de estas limitaciones utilizando una sola imagen panorámica de 360 grados para derivar esta información. Aunque las imágenes panorámicas pueden capturar una escena más amplia en una sola toma, su distorsión esférica hace que un análisis preciso sea desafiante. Los métodos convencionales intentan mitigar esto segmentando la imagen y aplicando repetidamente los modelos de IA estándar, pero esto a menudo resulta en pérdida de información o ineficiencia computacional.
Para abordar estos problemas, el equipo de investigación empleó armónicos esféricos (SH), una técnica matemática que modela con precisión la naturaleza esférica de las imágenes panorámicas. Este método descompone la escena en componentes de frecuencia: los componentes de baja frecuencia representan efectivamente áreas amplias y planas como techos y pisos, mientras que los componentes de alta frecuencia capturan estructuras detalladas como muebles y objetos, mejorando así la precisión.
Jongsung Lee, el primer autor del estudio, explicó: “Los armónicos esféricos se usan tradicionalmente en la síntesis de visión virtual para representar el color y la iluminación de objetos o escenas. Reconociendo su capacidad para analizar los datos en una superficie esférica, aplicamos innovadoramente SH a la reconstrucción espacial basada en imágenes panorámicas por primera vez”.
El modelo Hush demostró una precisión superior en la predicción de profundidad y otras tareas de comprensión espacial en comparación con los modelos existentes de reconstrucción de la escena 3D. Sorprendentemente, puede inferir múltiples detalles espaciales de una sola imagen, ofreciendo una eficiencia de alto rendimiento y computacional.
El profesor Joo enfatizó: “Esta tecnología tiene amplias aplicaciones potenciales en escenarios del mundo real donde la comprensión precisa de los espacios interiores es esencial, como los entornos AR y MR, o la creación de medios inmersivos que permiten la interacción del usuario de una sola imagen”.
Esta investigación se presentó en CVPR 2025 (Conferencia sobre visión por computadora y reconocimiento de patrones), celebrada en Nashville, del 11 al 15 de junio de 2025.
Más información: Jongsung Lee, Harin Park, Byeong-UK Lee y Kyungdon Joo, “Hush: comprensión de la escena 3D panorámica holística utilizando armónicos esféricos”, CVPR 2025, (2025).
Póster: cvpr.thecvf.com/virtual/2025/ponter/33754
Githubub: vision3d-lab.github.io/hush/
Proporcionado por el Instituto Nacional de Ciencia y Tecnología de Ulsan
Cita: Hush: Comprensión de la escena 3D panorámica holística utilizando armónicos esféricos (2025, 9 de julio) Recuperado el 9 de julio de 2025 de https://techxplore.com/news/2025-07-hush-holistic-panoramic-3d-scene.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.