Tecnología

La técnica novedosa supera el problema de correlaciones espurias en la IA

Crédito: dominio público Unsplash/CC0

Los modelos de IA a menudo dependen de “correlaciones espurias”, tomando decisiones basadas en información poco importante y potencialmente engañosa. Los investigadores ahora han descubierto que estas correlaciones espurias aprendidas pueden rastrearse a un subconjunto muy pequeño de los datos de entrenamiento y han demostrado una técnica que supera el problema. El trabajo ha sido publicado en el servidor ARXIV Preprint.

“Esta técnica es novedosa porque se puede usar incluso cuando no tiene idea de qué correlaciones espurias confían la IA”, dice Jung-Eun Kim, autor correspondiente de un artículo sobre el trabajo y profesor asistente de ciencias de la computación en la Universidad Estatal de Carolina del Norte.

“Si ya tiene una buena idea de cuáles son las características espurias, nuestra técnica es una forma eficiente y efectiva de abordar el problema. Sin embargo, incluso si simplemente tiene problemas de rendimiento, pero no entiende por qué, aún podría usar nuestra técnica para determinar si una correlación espuria existe y resuelve ese problema”.

Las correlaciones espurias generalmente son causadas por el sesgo de simplicidad durante el entrenamiento de IA. Los profesionales usan conjuntos de datos para capacitar a los modelos AI para realizar tareas específicas. Por ejemplo, un modelo de IA podría ser entrenado para identificar fotografías de perros. El conjunto de datos de entrenamiento incluiría fotos de perros donde se le dice a la IA que un perro está en la foto.

Durante el proceso de entrenamiento, la IA comenzará a identificar características específicas que puede usar para identificar perros. Sin embargo, si muchos de los perros en las fotos usan collares, y debido a que los collares generalmente son características menos complejas de un perro que oídos o pieles, la IA puede usar collares como una forma simple de identificar perros. Así es como el sesgo de simplicidad puede causar correlaciones espurias.

“Y si la IA usa collares como el factor que usa para identificar perros, la IA puede identificar a los gatos con collares como perros”, dice Kim.

Las técnicas convencionales para abordar los problemas causados ​​por correlaciones espurias dependen de que los profesionales puedan identificar las características espurias que están causando el problema. Luego pueden abordar esto modificando los conjuntos de datos utilizados para entrenar el modelo AI. Por ejemplo, los practicantes pueden aumentar el peso dado a las fotos en el conjunto de datos que incluyen perros que no usan collares.

Sin embargo, en su nuevo trabajo, los investigadores demuestran que no siempre es posible identificar las características espurias que están causando problemas, lo que hace técnicas convencionales para abordar las correlaciones espurias ineficaces.

El documento, “cortar correlaciones espurias con la poda de datos”, se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), que se llevará a cabo en Singapur del 24 al 28 de abril. El primer autor del artículo es Varun Mulchandani, un Ph.D. Estudiante en NC State.

“Nuestro objetivo con este trabajo era desarrollar una técnica que nos permita cortar correlaciones espurias incluso cuando no sabemos nada sobre esas características espurias”, dice Kim.

La nueva técnica se basa en eliminar una pequeña porción de los datos utilizados para entrenar el modelo AI.

“Puede haber una variación significativa en las muestras de datos incluidas en los conjuntos de datos de capacitación”, dice Kim. “Algunas de las muestras pueden ser muy simples, mientras que otras pueden ser muy complejas. Y podemos medir cómo” difícil “se basa en cómo se comportó el modelo durante el entrenamiento.

“Nuestra hipótesis fue que las muestras más difíciles en el conjunto de datos pueden ser ruidosas y ambiguas, y es más probable que obligue a una red a confiar en información irrelevante que perjudica el rendimiento de un modelo”, explica Kim.

“Al eliminar una pequeña astilla de los datos de entrenamiento que es difícil de entender, también está eliminando las muestras de datos duros que contienen características espurias. Esta eliminación supera el problema de correlaciones espurias, sin causar efectos adversos significativos”.

Los investigadores demostraron que la nueva técnica logra resultados de última generación, mejorando el rendimiento incluso en comparación con el trabajo previo en modelos donde las características espurias eran identificables.

Más información: Varun Mulchandani et al, cortando correlaciones espurias con la poda de datos, ARXIV (2025). Doi: 10.48550/arxiv.2503.18258

Información en la revista: ARXIV proporcionado por la Universidad Estatal de Carolina del Norte

Cita: la técnica novedosa supera el problema de correlaciones espurias en IA (2025, 18 de abril) Recuperado el 18 de abril de 2025 de https://techxplore.com/news/2025-04-technique-spurious-problem-ai.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button