Conjunto de datos BAL. De izquierda a derecha: 10155, 934 y 392 marcos de cámara. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2502.04640
Imagine tratar de hacer un modelo tridimensional preciso de un edificio usando solo imágenes tomadas desde diferentes ángulos, pero no está seguro de dónde estaban o qué tan lejos estaban todas las cámaras. Nuestros grandes cerebros humanos pueden completar muchos de esos detalles, pero las computadoras tienen mucho más dificultades para hacerlo.
Este escenario es un problema bien conocido en la visión por computadora y los sistemas de navegación de robots. Los robots, por ejemplo, deben tomar mucha información 2D y hacer nubes de puntos en 3D, colecciones de puntos de datos en el espacio 3D, en el fin de interpretar una escena. Pero las matemáticas involucradas en este proceso son desafiantes y propensos a errores, con muchas maneras para que la computadora estime incorrectamente las distancias. También es lento, porque obliga a la computadora a crear su nube de puntos 3D bit a bit.
Los informáticos de la Escuela de Ingeniería y Ciencias Aplicadas de Harvard John A. Paulson (SEAS) piensan que tienen un mejor método: un algoritmo innovador que permite que las computadoras reconstruyan escenas 3D de alta calidad de imágenes 2D mucho más rápido que los métodos existentes.
Una imagen 3D reconstruida del Coliseo Romano usando el nuevo algoritmo y aproximadamente 2,000 marcos de cámara. Crédito: Harvard John A. Paulson Escuela de Ingeniería y Ciencias Aplicadas
Su investigación se describe en un papel“Building Roma con optimización convexa”, que recientemente recibió el premio al mejor documento de sistemas en memoria de Seth Teller en el Robótica: conferencia de ciencias y sistemas. Fue escrito por el estudiante graduado Haoyu Han y Heng Yang, profesor asistente de ingeniería eléctrica en los mares. Los hallazgos se publican en el servidor ARXIV Preprint.
Una imagen reconstruida de más de 10,000 marcos de cámara. Crédito: Harvard John A. Paulson Escuela de Ingeniería y Ciencias Aplicadas
“Al combinar la predicción de profundidad AI de última generación con un nuevo enfoque poderoso en la optimización numérica convexa, el método puede estimar las posiciones de todos los puntos en una escena a la vez, sin necesidad de conjeturas paso a paso”, dijo Han. “Como resultado, el proceso de reconstrucción no solo es más rápido y más robusto que las técnicas tradicionales, sino que también está libre de la necesidad de conjeturas iniciales por parte de la computadora”.
Más información: Haoyu Han et al, construyendo Roma con optimización convexa, ARXIV (2025). Doi: 10.48550/arxiv.2502.04640
Información en el diario: ARXIV
Proporcionado por Harvard John A. Paulson Escuela de Ingeniería y Ciencias Aplicadas
Cita: Las computadoras reconstruyen entornos 3D de fotos en 2D en una fracción del tiempo (2025, 6 de agosto) recuperado el 6 de agosto de 2025 de https://techxplore.com/news/2025-08-reconstruct-3d-environments-2d-photos.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









