Home Tecnología Cuando la movilidad autónoma aprende a preguntarse

Cuando la movilidad autónoma aprende a preguntarse

57
0

Crédito: Vita Lab, EPFL

La movilidad autónoma ya existe, en cierta medida. Construir un vehículo autónomo que pueda navegar de manera segura una carretera vacía es una cosa. El verdadero desafío radica en adaptarse a la realidad dinámica y desordenada de los entornos urbanos.

A diferencia de las calles en forma de red de muchas ciudades estadounidenses, las carreteras europeas a menudo son estrechas, sinuosas e irregulares. Los entornos urbanos tienen innumerables intersecciones sin marcas claras, zonas solo para peatones, rotondas y áreas donde las bicicletas y los scooters comparten el camino con los automóviles. El diseño de un sistema de movilidad autónomo que puede operar de manera segura en estas condiciones requiere algo más que sensores y cámaras sofisticados.

Se trata principalmente de abordar un desafío tremendo: predecir la dinámica del mundo, en otras palabras, comprender cómo los humanos navegan dentro de los entornos urbanos dados. Los peatones, por ejemplo, a menudo toman decisiones espontáneas como atravesar una calle, cambiar de dirección repentinamente o tejer a través de las multitudes. Un niño podría correr después de un perro. Los ciclistas y los scooters complican aún más la ecuación, con sus maniobras ágiles y a menudo impredecibles.

“La movilidad autónoma, ya sea en forma de automóviles autónomos o robots de entrega, debe evolucionar más allá de simplemente reaccionar al momento presente. Para navegar por nuestro mundo complejo y dinámico, estos sistemas impulsados ​​por la IA necesitan la capacidad de imaginar, anticipar y simular posibles futuros, justo como los humanos cuando nos preguntamos lo que podría suceder a continuación. En esencia, la AI debe aprender a preguntarse,” dice Alexandre Alahi, Head, Head of SPET de EP para el transporte para el transporte para el transporte. (Vita).

Empujando los límites de la predicción: gema

En el laboratorio de Vita, el objetivo de hacer que la AI se “maravilla” se está convirtiendo en una realidad. Este año, el equipo ha tenido siete documentos aceptados para la conferencia sobre visión por computadora y reconocimiento de patrones (CVPR’25) que se celebrarán en Nashville, del 11 al 15 de junio. Cada contribución introduce un método novedoso para ayudar a los sistemas de IA a imaginar, predecir y simular posibles futuros, desde pronosticar el movimiento humano hasta la generación de secuencias de video completas.

En el espíritu de la ciencia abierta, todos los modelos y conjuntos de datos se están lanzando como código abierto, lo que permite a la comunidad de investigación global y a la industria para construir y extender este trabajo. Juntas, estas contribuciones representan un esfuerzo unificado para darle a la movilidad autónoma la capacidad no solo de reaccionar, sino de anticipar realmente el mundo que los rodea.

Uno de los modelos más innovadores está diseñado para predecir secuencias de video de una sola imagen capturada por una cámara montada en un vehículo (o cualquier vista egocéntrica). Llamado GEM (modelo mundial multimodal de visión de ego generalizable), ayuda a los sistemas autónomos a anticipar eventos futuros al aprender cómo evolucionan las escenas con el tiempo.

Crédito: Vita Lab, EPFL

Como parte de la iniciativa de IA suiza, y en colaboración con otras cuatro instituciones (Universidad de Berna, SDSC, Universidad de Zúrich y Eth Zúrich), capacitaron a su modelo utilizando 4.000 horas de videos que abarcan la conducción autónoma, actividades humanas egocéntricas (significado, actividades desde el punto de vista de la primera persona) y los pies de drones.

GEM aprende cómo las personas y los objetos se mueven en diferentes entornos. Utiliza este conocimiento para generar secuencias de video completamente nuevas que imaginan lo que podría suceder después en una escena determinada, ya sea un peatón que cruza la calle o un automóvil girando en una intersección.

Estos escenarios imaginados incluso se pueden controlar agregando automóviles y peatones, lo que hace de GEM una herramienta poderosa para entrenar y probar los sistemas autónomos de manera segura en una amplia gama de situaciones realistas.

Para hacer estas predicciones, el modelo se ve simultáneamente en varios tipos de información, también llamadas modalidades. Analiza las imágenes RGB, que son marcos de video en color estándar, para comprender el contexto visual de una escena y los mapas de profundidad para comprender su estructura 3D. Estos dos tipos de datos juntos permiten que el modelo interprete lo que está sucediendo y dónde están las cosas en el espacio.

GEM también tiene en cuenta el movimiento de la cámara (ego-movimiento), poses humanas y dinámica de objetos a lo largo del tiempo. Al aprender cómo todas estas señales evolucionan juntas en miles de situaciones del mundo real, puede generar secuencias coherentes y realistas que reflejan cómo una escena podría cambiar en los próximos segundos.

“La herramienta puede funcionar como un simulador realista para vehículos, drones y otros robots, lo que permite la prueba segura de las políticas de control en entornos virtuales antes de implementarlos en condiciones del mundo real. También puede ayudar a planificar al ayudar a estos robots a anticipar los cambios en sus alrededores, haciendo que la toma de decisiones sea más robusta y contexto”, dice Mariam Hassan, estudiante ph.d en el laboratorio de Vita.

El camino hacia las predicciones

Predecir el comportamiento humano es un desafío complejo y multifacético, y GEM representa solo una pieza del esfuerzo más amplio del laboratorio de Vita para abordarlo. Si bien GEM se centra en generar los videos del futuro y exponer sistemas autónomos a diversos escenarios virtuales, otros proyectos de investigación del equipo del profesor Alahi están abordando niveles más bajos de abstracciones para mejorar la predicción con robustez, generalización y conciencia social.

Por ejemplo, uno de ellos tiene como objetivo certificar dónde se moverán las personas, incluso cuando los datos están incompletos o ligeramente apagados. Mientras tanto, MotionMap aborda la imprevisibilidad inherente del movimiento humano a través de un enfoque probabilístico. Este enfoque probabilístico ayuda a los sistemas a prepararse para movimientos inesperados en entornos dinámicos.

Estos esfuerzos forman un marco integral que mapea las complejas interacciones en juego en entornos urbanos abarrotados. Todavía hay desafíos: la consistencia a largo plazo, la precisión espacial de alta fidelidad y la eficiencia computacional aún está evolucionando. En el corazón de todo se encuentra la pregunta más difícil: ¿qué tan bien predeciremos a las personas que no siempre siguen los patrones? Las decisiones humanas están formadas por la intención, la emoción y el contexto, factores que no siempre son visibles para las máquinas.

Más información: MotionMap: que representa la multimodalidad en el pronóstico de pose humana, R. Hosseininejad, M. Shukla, S. Saadatnejad, M. Salzmann, A. Alahi, CVPR25. github.com/vita-epfl/motionmap/tree/main

HELVIAD: El conjunto de datos del mundo real para la omnidación de la estimación de profundidad, M. Zayene, J. Ends, A. Havolli, Cross, St. Cherkaoui, A. The Ahmed Ahmed, A. Alahi, CVPR2 Github.com.com/helvipad

FG2: localización de visión cruzada de grano fino por coincidencia de características de grano fino. Z. Xia, A. Alahi, CVPR25. github.com/vita-epfl/fg2

Hacia la predicción de trayectoria generalizable utilizando el aprendizaje de representación de doble nivel y la solicitud adaptativa, K. Messaoud, M. Cord, A. Alahi, CVPR25. github.com/vita-epfl/perreg

Transferencia causal de simulación: un enfoque de aprendizaje métrico para representaciones de interacción causalmente conscientes, A. rahimi, PC. Luan, Y. Liu, F. Rajic, A. Alahi, CVPR25. github.com/vita-epfl/causalsim2real

Predicción de trayectoria humana certificada, M. Bahari, S. Saadatnejad, A. Askari Farsangi, S. Moosavi-Dezfooli, A. Alahi, CVPR25 github.com/vita-pfl/s-ttack

GEM: un modelo mundial multimodal generalizable de visión del ego para la cámara del ego de grano fino, la dinámica de objetos y el control de la composición de la escena, M. Hassan, S. Stapf, A. Rahimi, PMB Rezende, Y. Haghighi, D. Brüggemann, I. Katircioglu, L. Zhang, X. Chen, S. Saha, M. Cannici, E. Aljalbout, B. Ye, X. Wang, A. Davtyan, M. Salzmann, D. Scaramuzza, M. Pollefeys, P. Favaro, A. Alahi, CVPR25. github.com/vita-epfl/gem

Proporcionado por Ecole Polytechnique Federal de Lausanne

Cita: cuando la movilidad autónoma aprende a preguntarse (2025, 15 de mayo) Recuperado el 15 de mayo de 2025 de https://techxplore.com/news/2025-05-autónomo-mobility.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.