Comparación de las coordenadas de la mirada entre los participantes humanos y los cabezales de atención de los transformadores de visión (VIT). Crédito: Redes neuronales (2025). Doi: 10.1016/j.neunet.2025.107595
¿Pueden las máquinas ver el mundo tal como lo vemos? Los investigadores han descubierto evidencia convincente de que Vision Transformers (VITS), un tipo de modelo de aprendizaje profundo que se especializa en el análisis de imágenes, puede desarrollar espontáneamente patrones de atención visual similares a los humanos cuando se entrenan sin instrucciones etiquetadas.
La atención visual es el mecanismo por el cual los organismos, o inteligencia artificial (IA), filtran el “ruido visual” para centrarse en las partes más relevantes de una imagen o vista. Si bien es natural para los humanos, el aprendizaje espontáneo ha resultado difícil para la IA.
Sin embargo, los investigadores han revelado, en su reciente publicación en redes neuronales, que con la experiencia de entrenamiento adecuada, la IA puede adquirir espontáneamente la atención visual similar a la humana sin que se le enseñe explícitamente a hacerlo.
El equipo de investigación, de la Universidad de Osaka, comparó los datos de seguimiento ocular humano con los patrones de atención generados por VITS entrenados utilizando Dino (“Distilación sin etiquetas”), un método de aprendizaje auto-supervisado que permite a los modelos organizar información visual sin conjuntos de datos anotados.
Sorprendentemente, los VITs entrenados en dino exhibieron un comportamiento de la mirada que reflejaba estrechamente el de los adultos en desarrollo típicamente al ver videoclips dinámicos. En contraste, los VIT entrenados con el aprendizaje supervisado convencional mostraron atención visual antinatural.
“Nuestros modelos no solo asistieron a escenas visuales al azar, desarrollaron espontáneamente funciones especializadas”, dice Takuto Yamamoto, autor principal del estudio. “Un subconjunto del modelo se centró consistentemente en las caras, otro capturó los contornos de figuras enteras y un tercero atendió principalmente a las características de fondo. Esto refleja de cerca cómo segmentan e interpretan escenas de sistemas visuales humanos”.
Comparación de la mirada humana y los vits de dino. La película muestra las ubicaciones de la mirada de los participantes humanos (adultos con desarrollo típico, adultos TD; n = 27) y VITs de dinosaurios (24 cabezas G1 de VIT de 8 y 12 capas). Tenga en cuenta la notable similitud entre los puntos rojos (adultos TD) y el cuadrado cuadrado (VITS de Dino). Crédito: Redes neuronales (2025). Doi: 10.1016/j.neunet.2025.107595
A través de análisis detallados, el equipo demostró que estos grupos de atención surgieron naturalmente en los VITs entrenados en dino. Estos patrones de atención no solo fueron cualitativamente similares a la mirada humana, sino que también se alinearon cuantitativamente con los datos establecidos de seguimiento ocular, particularmente en escenas que involucran figuras humanas. Los hallazgos sugieren una posible extensión del modelo tradicional de percepción figura-tierra de dos partes en psicología en un modelo de tres partes.
“Lo que hace que este resultado sea notable es que a estos modelos nunca se les dijo lo que es una cara”, explica el autor senior, Shigeru Kitazawa, “pero aprendieron a priorizar caras, probablemente porque hacerlo maximizó la información obtenida de su entorno. Es una demostración convincente de que el aprendizaje auto-supervisado puede capturar algo fundamental sobre cómo los sistemas inteligentes, incluidos los humanos, aprenden del mundo”.
El estudio subraya el potencial del aprendizaje auto-supervisado no solo para avanzar en aplicaciones de IA, sino también para modelar aspectos de la visión biológica. Al alinear los sistemas artificiales más estrechamente con la percepción humana, los VIT auto-supervisados ofrecen una nueva lente para interpretar tanto el aprendizaje automático como la cognición humana.
Los resultados de este estudio podrían usarse para una variedad de aplicaciones, como el desarrollo de robots amigables para los humanos o para mejorar el apoyo durante el desarrollo de la primera infancia.
Más información: Takuto Yamamoto et al, aparición de atención humana y distintos grupos de la cabeza en transformadores de visión auto-supervisados: un estudio comparativo de seguimiento ocular, redes neuronales (2025). Doi: 10.1016/j.neunet.2025.107595
Proporcionado por la Universidad de Osaka
Cita: Transformadores de visión autónomos imitan la mirada humana con una precisión sorprendente (2025, 26 de mayo) recuperada el 26 de mayo de 2025 de https://techxplore.com/news/2025-05-vision-mimic-human-precision.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.








