Crédito: dominio público Unsplash/CC0
En el mundo del aprendizaje automático e inteligencia artificial, los datos limpios lo son todo. Incluso un pequeño número de ejemplos mal etiquetados conocidos como ruido de la etiqueta puede descarrilar el rendimiento de un modelo, especialmente aquellos como Support Vector Machines (SVMS) que dependen de algunos puntos de datos clave para tomar decisiones.
Los SVM son un tipo de algoritmo de aprendizaje automático ampliamente utilizado, aplicado en todo, desde el reconocimiento de la imagen y el habla hasta el diagnóstico médico y la clasificación de texto. Estos modelos operan encontrando un límite que mejor separe diferentes categorías de datos. Confían en un subconjunto pequeño pero crucial de los datos de entrenamiento, conocidos como vectores de soporte, para determinar este límite. Si estos pocos ejemplos están etiquetados incorrectamente, los límites de decisión resultantes pueden ser defectuosos, lo que lleva a un bajo rendimiento en los datos del mundo real.
Ahora, un equipo de investigadores del Centro de Autonomía Connected e Inteligencia Artificial (CA-AI) dentro de la Facultad de Ingeniería e Informática de la Florida Atlantic University y colaboradores han desarrollado un método innovador para detectar y eliminar automáticamente etiquetas defectuosas antes de que un modelo esté capacitado, lo que está capacitado, AI Smarter, más rápido y más confiable.
Antes de que la IA incluso comience a aprender, los investigadores limpian los datos utilizando una técnica matemática que busca ejemplos extraños o inusuales que no encajen. Estos “valores atípicos” se eliminan o marcan, asegurándose de que la IA obtenga información de alta calidad desde el principio. El documento se publica en IEEE Transactions en redes neuronales y sistemas de aprendizaje.
“Los SVM se encuentran entre los clasificadores más potentes y ampliamente utilizados en el aprendizaje automático, con aplicaciones que van desde la detección del cáncer hasta el filtrado de spam”, dijo Dimitris Pado, Ph.D., eminente académico de Ingeniería de Ingeniería e Informática en el Departamento de Ingeniería Eléctrica e Informática de FAU, Director de CA-AI y un Instituto de Sensing Fau (I-Sense) Faculty Faily.
“Lo que los hace especialmente efectivos, pero también de manera única vulnerable, es que confían solo en un pequeño número de puntos de datos clave, llamados vectores de soporte, para dibujar la línea entre diferentes clases. Si incluso uno de esos puntos está mal etiquetado, por ejemplo, si un tumor maligno está marcado incorrectamente como benigno, puede distorsionar todo el modelo de comprensión del problema.
Las consecuencias de eso podrían ser graves, ya sea un diagnóstico de cáncer perdido o un sistema de seguridad que no indique una amenaza. Nuestro trabajo se trata de proteger modelos, cualquier modelo de aprendizaje automático y AI que incluya SVMS, de estos peligros ocultos al identificar y eliminar esos casos mal etiquetados antes de que puedan dañar “.
El método basado en datos que “limpia” el conjunto de datos de capacitación utiliza un enfoque matemático llamado análisis de componentes principales de la norma L1. A diferencia de los métodos convencionales, que a menudo requieren ajuste de parámetros manuales o suposiciones sobre el tipo de ruido presente, esta técnica identifica y elimina los puntos de datos sospechosos dentro de cada clase en función de qué tan bien encajan con el resto del grupo.
“Los puntos de datos que parecen desviarse significativamente del resto, a menudo debido a los errores de etiqueta, se marcan y eliminan”, dijo Pado. “A diferencia de muchas técnicas existentes, este proceso no requiere ajuste manual o intervención del usuario y puede aplicarse a cualquier modelo de IA, lo que lo hace escalable y práctico”.
El proceso es robusto, eficiente y totalmente libre de tacto, incluso manejando la tarea notoriamente complicada de la selección de rango (que determina cuántas dimensiones mantener durante el análisis) sin la entrada del usuario.
Los investigadores probaron ampliamente su técnica en conjuntos de datos reales y sintéticos con varios niveles de contaminación de etiquetas. En todos los ámbitos, produjo mejoras consistentes y notables en la precisión de la clasificación, lo que demuestra su potencial como un paso de preprocesamiento estándar en el desarrollo de sistemas de aprendizaje automático de alto rendimiento.
“Lo que hace que nuestro enfoque sea particularmente convincente es su flexibilidad”, dijo Pado. “Se puede utilizar como un paso de preprocesamiento de plug-and-play para cualquier sistema de IA, independientemente de la tarea o el conjunto de datos. Y no solo es teórico, las pruebas extensas en conjuntos de datos ruidosos y limpios, incluidos puntos de referencia bien conocidos como el conjunto de datos de cáncer de mama de Wisconsin, mostraron mejoras consistentes en la precisión de clasificación.
“Incluso en los casos en que los datos de entrenamiento originales parecían perfectos, nuestro nuevo método aún mejoró el rendimiento, lo que sugiere que el ruido sutil y oculto de la etiqueta puede ser más común de lo que se pensaba anteriormente”.
Mirando hacia el futuro, la investigación abre la puerta a aplicaciones aún más amplias. El equipo está interesado en explorar cómo este marco matemático podría extenderse para abordar problemas más profundos en la ciencia de datos, como reducir el sesgo de datos y mejorar la integridad de los conjuntos de datos.
“A medida que el aprendizaje automático se integra profundamente en dominios de alto riesgo como la atención médica, las finanzas y el sistema de justicia, la integridad de los datos que impulsa estos modelos nunca ha sido más importante”, dijo Stella Batalama, Ph.D., decana de la Facultad de Ingeniería e Informática de FAU.
“Estamos pidiendo a los algoritmos que tomen decisiones que afecten vidas reales: diagnosticar enfermedades, evaluar las solicitudes de préstamos, incluso informar los juicios legales. Si los datos de capacitación son defectuosos, las consecuencias pueden ser devastadoras. Es por eso que innovaciones como esta son tan críticas.
“Al mejorar la calidad de los datos en la fuente, antes de que el modelo esté incluso capacitado, no solo estamos haciendo que la IA sea más precisa; lo estamos haciendo más responsable. Este trabajo representa un paso significativo hacia la construcción de sistemas de IA en el que podemos confiar para rendir de manera bastante, confiable y ética en el mundo real”.
Más información: Shruti Shukla et al, Curación del conjunto de datos de capacitación mediante el análisis de componentes principales de L 1 norma para máquinas de vectores de soporte, transacciones IEEE en redes neuronales y sistemas de aprendizaje (2025). Doi: 10.1109/tnnls.2025.3568694
Proporcionado por la Universidad de Florida Atlantic
Cita: el método de detección innovador hace que AI sea más inteligente al limpiar los datos malos antes de que aprenda (2025, 12 de junio) recuperado el 12 de junio de 2025 de https://techxplore.com/news/2025-06-method-ai-smarter-bad.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.