Home Tecnología El método de IA reconstruye los detalles de la escena 3D de...

El método de IA reconstruye los detalles de la escena 3D de las imágenes simuladas utilizando la representación inversa

64
0

Generación de diseño. A, imágenes para dos escenas observadas por una sola cámara. B, tiempo de prueba optimizado de objetos renderizados inversos. C, diseños BEV de las escenas. En el diseño de BEV (una representación común para tareas de conducción autónoma), las cajas negras representan la verdad del suelo y las cajas de colores representan cajas BEV predichas. Crédito: Nature Machine Intelligence (2025). Doi: 10.1038/s42256-025-01083-x

En las últimas décadas, los informáticos han desarrollado muchas herramientas computacionales que pueden analizar e interpretar imágenes. Estas herramientas han demostrado ser útiles para una amplia gama de aplicaciones, que incluyen robótica, conducción autónoma, atención médica, fabricación e incluso entretenimiento.

La mayoría de los enfoques de visión por computadora de mejor rendimiento empleados hasta la fecha se basan en las llamadas redes neuronales de alimentación. Estos son modelos computacionales que procesan imágenes de entrada paso a paso, en última instancia, lo que hace predicciones sobre ellas.

Si bien se descubrió que algunos de estos modelos funcionan bien cuando se probaron en los datos que analizaron durante la capacitación, a menudo no se generalizan bien en nuevas imágenes y en diferentes escenarios. Además, sus predicciones y los patrones que extraen de las imágenes pueden ser difíciles de interpretar.

Los investigadores de la Universidad de Princeton desarrollaron recientemente un nuevo enfoque de representación inversa que es más transparente y que también podría interpretar una amplia gama de imágenes de manera más confiable. El nuevo enfoque, introducido en un artículo publicado En la inteligencia de la máquina de la naturaleza, se basa en un método basado en inteligencia artificial generativa (AI) para simular el proceso de creación de imágenes, al tiempo que lo optimiza ajustando gradualmente los parámetros internos de un modelo.

“La IA generativa y la representación neuronal han transformado el campo en los últimos años para crear contenido novedoso: producir imágenes o videos a partir de descripciones de escenas”, dijo Felix Heide, autor principal del periódico, a Tech Xplore. “Investigamos si podemos voltear esto y usar estos modelos generativos para extraer las descripciones de la escena de las imágenes”.

Video de los resultados de seguimiento del método del equipo. Una demostración del rendimiento de nuestro método de seguimiento propuesto basado en la representación neuronal inversa para una muestra de diversas escenas del conjunto de datos Nuscenes y el conjunto de datos Open Waymo. Superponemos la imagen observada con los objetos renderizados a través de la mezcla alfa con un peso de 0.4. Las representaciones de objetos se definen mediante las incrustaciones latentes promedio ZK, EMA y el estado de objeto rastreado YK. Crédito: Nature Machine Intelligence (2025). Doi: 10.1038/s42256-025-01083-x

El nuevo enfoque desarrollado por Heide y sus colegas se basa en una llamada tubería de representación diferenciable. Este es un proceso para la simulación de la creación de imágenes, que se basa en representaciones comprimidas de imágenes creadas por modelos de IA generativos.

“Desarrollamos un enfoque de análisis por síntesis que nos permite resolver tareas de visión, como el seguimiento, como problemas de optimización del tiempo de prueba”, explicó Heide. “Descubrimos que este método se generaliza en todos los conjuntos de datos, y en contraste con los métodos de aprendizaje supervisados ​​existentes, no necesita ser capacitado en nuevos conjuntos de datos”.

Esencialmente, el método desarrollado por los investigadores trabaja colocando modelos de objetos 3D en una escena virtual que representa la configuración del mundo real. Estos modelos de objetos son generados por una IA generativa basada en una muestra aleatoria de parámetros de escena 3D.

“Luego volvemos a unir todos estos objetos en una imagen 2D”, dijo Heide. “A continuación, comparamos esta imagen renderizada con la imagen observada real. Según cuán diferentes son, respaldamos la diferencia a través de la función de representación diferenciable y el modelo de generación 3D para actualizar sus entradas. En solo unos pocos pasos, optimizamos estas entradas para hacer que las imágenes observadas coincidan mejor”.

Optimización de modelos 3D a través de la representación neuronal inversa. De izquierda a derecha: la imagen observada, las generaciones 3D aleatorias iniciales y tres pasos de optimización que los refinan para que coincidan mejor con la imagen observada. Las imágenes observadas se desvanecen para mostrar claramente los objetos renderizados. El método refina efectivamente la apariencia y la posición del objeto, todo hecho en el tiempo de prueba con representación neural inversa. Crédito: OST et al. Generalización del seguimiento 3D de objetos múltiples con representación neuronal inversa. El método se generaliza directamente a través de conjuntos de datos, como los puntos de referencia de conjunto de datos Nuscenes y Waymo Open sin ajuste fino adicional y se capacita solo en modelos 3D sintéticos. Las imágenes observadas se superponen con el objeto generado más cercano y rastrean cajas de límites 3D. Crédito: OST et al.

Una ventaja notable del enfoque recientemente propuesto del equipo es que permite que los modelos de generación de objetos 3D muy genéricos entrenados en datos sintéticos funcionen bien en una amplia gama de conjuntos de datos que contienen imágenes capturadas en configuraciones del mundo real. Además, las representaciones producidas por los modelos son mucho más explicables que las producidas por las herramientas de representación convencionales basadas en modelos de aprendizaje automático de alimentación.

“Nuestro enfoque de representación inversa para el seguimiento funciona tan bien como enfoques de alimentación aprendidos, pero nos proporciona explícitas explicaciones en 3D de su mundo percibido”, dijo Heide.

“El otro aspecto interesante son las capacidades de generalización. Sin cambiar el modelo de generación 3D o capacitarlo en nuevos datos, nuestro seguimiento 3D de objetos múltiples a través de la representación neuronal inversa funciona bien en diferentes conjuntos de datos de conducción autónoma y tipos de objetos. Esto puede reducir significativamente el costo de ajustar nuevos datos o al menos trabajar como una cartera de etiqueta automática”.

Este estudio reciente pronto podría ayudar a avanzar en los modelos AI para la visión por computadora, mejorando su rendimiento en la configuración del mundo real y al mismo tiempo aumentar su transparencia. Los investigadores ahora planean continuar mejorando su método y comenzar a probarlo en tareas más relacionadas con la visión por computadora.

“Un siguiente paso lógico es la expansión del enfoque propuesto a otras tareas de percepción, como la detección 3D y la segmentación 3D”, agregó Heide. “En última instancia, queremos explorar si la representación inversa se puede usar para inferir toda la escena 3D, y no solo objetos individuales. Esto permitiría a nuestros futuros robots razonar y optimizar continuamente un modelo tridimensional del mundo, que viene con explicación incorporada”.

Escrito para usted por nuestro autor Ingrid Fadellieditado por Gaby Clarky verificado y revisado por Robert Egan—Este artículo es el resultado de un trabajo humano cuidadoso. Confiamos en lectores como usted para mantener vivo el periodismo científico independiente. Si este informe le importa, considere un donación (especialmente mensual). Obtendrá una cuenta sin anuncios como agradecimiento.

Más información: Julian Ost et al, hacia el seguimiento tridimensional generalizable e interpretable con representación neuronal inversa, inteligencia de la máquina de la naturaleza (2025). Doi: 10.1038/s42256-025-01083-x.

© 2025 Science X Network

Cita: el método AI reconstruye los detalles de la escena 3D de las imágenes simuladas utilizando la representación inversa (2025, 23 de agosto) recuperado el 23 de agosto de 2025 de https://techxplore.com/news/2025-08-ai-method-reconstructs-3d-scene.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias