Tecnología

Cómo los modelos causales solucionan el problema de generalización del aprendizaje de refuerzo fuera de línea

El mapa de calor de los tres conjuntos de datos fuera de línea en el modelo de conducción del automóvil. Crédito: fronteras de la informática (2024). Doi: 10.1007/s11704-024-3946-y

Investigadores de la Universidad de Nanjing y la Universidad Carnegie Mellon han introducido un enfoque de IA que mejora cómo las máquinas aprenden de los datos pasados, un proceso conocido como aprendizaje de refuerzo fuera de línea. Este tipo de aprendizaje automático es esencial para permitir que los sistemas tomen decisiones utilizando solo información histórica sin necesidad de interacción en tiempo real con el mundo.

Al centrarse en las auténticas relaciones de causa y efecto dentro de los datos, el nuevo método permite que los sistemas autónomos, como los automóviles sin conductor y los sistemas de apoyo a la decisión médica, tomen decisiones más seguras y confiables. El trabajo se publica en la revista Frontiers of Computer Science.

Desde señales engañosas hasta una verdadera causalidad: un nuevo paradigma de aprendizaje

Tradicionalmente, el aprendizaje de refuerzo fuera de línea ha luchado porque a veces recoge patrones engañosos de datos históricos sesgados. Para ilustrar, imagine aprender a conducir solo viendo videos de otra persona al volante.

Si ese conductor siempre enciende los limpiaparabrisas cuando se ralentiza bajo la lluvia, puede pensar incorrectamente que encender los limpiaparabrisas hace que el automóvil disminuya la velocidad. En realidad, es el acto de frenado lo que ralentiza el vehículo.

El nuevo método de IA corrige este malentendido al enseñar al sistema a reconocer que la acción de frenado, no la activación de los limpiaparabrisas, es responsable de ralentizar el automóvil.

Mejorar la seguridad en sistemas autónomos

Con la capacidad de identificar relaciones genuinas de causa y efecto, el nuevo enfoque hace que los sistemas autónomos sean mucho más seguros, más inteligentes y más confiables. Las industrias como los vehículos autónomos, la atención médica y la robótica se benefician significativamente porque estos sistemas a menudo se usan cuando la toma de decisiones precisa y confiable es fundamental.

El investigador principal, el Prof. Yang Yu, declaró: “Nuestro estudio aprovecha el poder del razonamiento causal para reducir el ruido en los datos históricos, lo que permite a los sistemas tomar decisiones que sean más precisas y seguras, un avance que podría mejorar la forma en que se implementa la tecnología autónoma entre las industrias”.

Para los encargados de formular políticas y los líderes de la industria, estos hallazgos podrían respaldar mejores estándares regulatorios, prácticas de implementación más seguros y una mayor confianza pública en los sistemas automatizados. Además, desde una perspectiva científica, la investigación allana el camino para estudios más sólidos sobre la conciencia de la IA de la causalidad.

Un enfoque causal que supera a los modelos tradicionales

Los investigadores encontraron que los modelos de IA tradicionales a veces confunden acciones no relacionadas como causalmente vinculadas, lo que puede dar lugar a resultados peligrosos. Demostraron que muchos de estos errores se reducen significativamente al incorporar la estructura causal en estos modelos. Además, se ha demostrado que el nuevo método, referido como un nuevo enfoque causal de IA, funcionan constantemente mejor que las técnicas existentes (es decir, MOPO, Morel, Combo, LNCM) cuando se prueban en escenarios prácticos.

Para lograr estos resultados prometedores, el equipo de investigación desarrolló un método que identifica relaciones causales genuinas de datos históricos utilizando pruebas estadísticas especializadas diseñadas para datos secuenciales y continuos. Este enfoque ayuda a discernir con precisión las verdaderas causas detrás de las acciones observadas y reduce la complejidad computacional que a menudo obstaculiza los métodos tradicionales, lo que hace que el sistema sea más eficiente y práctico.

Esta investigación mejora nuestra comprensión de las capacidades de IA al incorporar el razonamiento causal en el aprendizaje de refuerzo fuera de línea. Ofrece mejoras prácticas en la seguridad y la efectividad de los sistemas autónomos en la vida cotidiana.

Más información: Zhengmao Zhu et al, aprendizaje de refuerzo basado en modelos fuera de línea con modelos mundiales estructurados causales, fronteras de la informática (2024). Doi: 10.1007/s11704-024-3946-y

Proporcionado por la prensa de educación superior

Cita: Romper el enlace espurio: cómo los modelos causales arreglan el problema de generalización del aprendizaje de refuerzo fuera de línea (2025, 28 de abril) Recuperado el 28 de abril de 2025 de https://techxplore.com/news/2025-04-spurious-link-offline-ofline-genereralization.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button