Tres tipos de máscaras de atención y sus gráficos dirigidos correspondientes G utilizados en el análisis (se omiten la claridad). Un borde dirigido desde la ficha j a I indica que me asiste a j. Los nodos centrales (definición 3.1), resaltados en amarillo, representan tokens que pueden ser atendidos directa o indirectamente por todos los demás tokens en la secuencia. Como se muestra en la fila superior, la formulación teórica gráfica captura las contribuciones directas e indirectas de los tokens al contexto general, proporcionando una visión integral de las interacciones de tokens bajo atención de múltiples capas. Crédito: arxiv (2025). Doi: 10.48550/arxiv.2502.01951
La investigación ha demostrado que los modelos de idiomas grandes (LLM) tienden a enfatizar demasiado la información al principio y al final de un documento o conversación, al tiempo que descuidan el medio.
Este “sesgo de posición” significa que si un abogado está utilizando un asistente virtual con motor LLM para recuperar una cierta frase en una declaración jurada de 30 páginas, es más probable que el LLM encuentre el texto correcto si está en las páginas iniciales o finales.
Los investigadores del MIT han descubierto el mecanismo detrás de este fenómeno.
Crearon un marco teórico para estudiar cómo fluye la información a través de la arquitectura de aprendizaje automático que forma la columna vertebral de LLM. Descubrieron que ciertas opciones de diseño que controlan cómo el modelo procesa los datos de entrada puede causar sesgo de posición.
Sus experimentos revelaron que las arquitecturas del modelo, particularmente aquellas que afectan cómo se extiende la información a través de las palabras de entrada dentro del modelo, pueden dar lugar o intensificar el sesgo de posición, y que los datos de entrenamiento también contribuyen al problema.
El trabajo se publica en el arxiv servidor de preimpresión.
Además de identificar los orígenes del sesgo de posición, su marco se puede utilizar para diagnosticarlo y corregirlo en futuros diseños de modelos.
Esto podría conducir a chatbots más confiables que permanecen en el tema durante las largas conversaciones, los sistemas de IA médicos que razonan más justo al manejar un tesoro de datos del paciente y asistentes de código que prestan más atención a todas las partes de un programa.
“Estos modelos son cajas negras, por lo que, como usuario de LLM, probablemente no sepa que el sesgo de posición puede hacer que su modelo sea inconsistente. Simplemente lo alimenta con sus documentos en cualquier orden que desee y espere que funcione. Pero al comprender el mecanismo subyacente de estos modelos de caja negra, podemos mejorarlos al abordar estas limitaciones”, dice Xinyi Wu, un estudiante de posgrado en el instituto MIT para los datos, los sistemas, los sistemas y la sociedad (Idatorys (Idatorss para los Litimations “, y los Laboristas de Laboratorios y la Confacción y el Laboratorio de Labas Sistemas (tapas), y primer autor del documento.
Sus coautores incluyen a Yifei Wang, un postdoc de MIT; y autores principales Stefanie Jegelka, profesora asociada de ingeniería eléctrica e informática (EEC) y miembro de IDSS y del Laboratorio de Inteligencia de Informática e Artificial (CSAIL); y Ali Jadbabaie, profesor y jefe del Departamento de Ingeniería Civil y Ambiental, un miembro central de la facultad de IDSS e investigador principal en Lids. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Autor.
Análisis de atención
Los LLM como Claude, Llama y GPT-4 están impulsados por un tipo de arquitectura de red neuronal conocida como transformador. Los transformadores están diseñados para procesar datos secuenciales, codificar una oración en fragmentos llamados tokens y luego aprender las relaciones entre los tokens para predecir qué palabras vienen a continuación.
Estos modelos se han vuelto muy buenos en esto debido al mecanismo de atención, que utiliza capas interconectadas de nodos de procesamiento de datos para dar sentido al contexto al permitir que los tokens se concentren selectivamente o atiendan tokens relacionados.
Pero si cada token puede atender cualquier otro token en un documento de 30 páginas, eso rápidamente se vuelve computacionalmente intratable. Entonces, cuando los ingenieros construyen modelos de transformadores, a menudo emplean técnicas de asignación de atención que limitan las palabras a las que puede asistir un token. Por ejemplo, una máscara causal solo permite que las palabras atiendan a las que vinieron antes.
Los ingenieros también usan codificaciones posicionales para ayudar al modelo a comprender la ubicación de cada palabra en una oración, mejorando el rendimiento.
Los investigadores del MIT crearon un marco teórico basado en gráficos para explorar cómo estas opciones de modelado, máscaras de atención y codificaciones posicionales podrían afectar el sesgo de posición.
“Todo está acoplado y enredado dentro del mecanismo de atención, por lo que es muy difícil de estudiar. Los gráficos son un lenguaje flexible para describir la relación dependiente entre las palabras dentro del mecanismo de atención y rastrearlas en múltiples capas”, dice Wu.
Su análisis teórico sugirió que el enmascaramiento causal le da al modelo un sesgo inherente hacia el comienzo de una entrada, incluso cuando ese sesgo no existe en los datos.
Si las palabras anteriores son relativamente poco importantes para el significado de una oración, el enmascaramiento causal puede hacer que el transformador preste más atención a su comienzo de todos modos.
“Si bien a menudo es cierto que las palabras anteriores y las palabras posteriores en una oración son más importantes, si se usa una LLM en una tarea que no es una generación de lenguaje natural, como la clasificación o la recuperación de información, estos sesgos pueden ser extremadamente dañinos”, dice Wu.
A medida que crece un modelo, con capas adicionales de mecanismo de atención, este sesgo se amplifica porque las partes anteriores de la entrada se usan con mayor frecuencia en el proceso de razonamiento del modelo.
También encontraron que usar codificaciones posicionales para vincular las palabras con más fuerza a las palabras cercanas puede mitigar el sesgo de posición. La técnica reenfoca la atención del modelo en el lugar correcto, pero su efecto se puede diluir en modelos con más capas de atención. Estas opciones de diseño son solo una causa de sesgo de posición: algunos pueden provenir de los datos de entrenamiento que el modelo usa para aprender a priorizar las palabras en una secuencia.
“Si sabe que sus datos están sesgados de cierta manera, entonces también debe finitar su modelo además de ajustar sus opciones de modelado”, dice Wu.
Perdido en el medio
Después de establecer un marco teórico, los investigadores realizaron experimentos en los que variaron sistemáticamente la posición de la respuesta correcta en las secuencias de texto para una tarea de recuperación de información.
Los experimentos mostraron un fenómeno “perdido en el medio”, donde la precisión de la recuperación siguió a un patrón en forma de U. Los modelos se desempeñaron mejor si la respuesta correcta se encontraba al comienzo de la secuencia. El rendimiento disminuyó cuanto más se acercaba al medio antes de recuperarse un poco si la respuesta correcta estaba cerca del final.
En última instancia, su trabajo sugiere que usar una técnica de enmascaramiento diferente, eliminar capas adicionales del mecanismo de atención o emplear estratégicamente codificaciones posicionales podría reducir el sesgo de posición y mejorar la precisión de un modelo.
“Al hacer una combinación de teoría y experimentos, pudimos analizar las consecuencias de las opciones de diseño del modelo que no estaban claras en ese momento. Si desea usar un modelo en aplicaciones de alto riesgo, debe saber cuándo funcionará, cuándo no lo hace, y por qué”, dice Jadbabaie.
En el futuro, los investigadores quieren explorar más a fondo los efectos de las codificaciones posicionales y estudiar cómo el sesgo de posición podría explotarse estratégicamente en ciertas aplicaciones.
“Estos investigadores ofrecen una lente teórica rara en el mecanismo de atención en el corazón del modelo de transformador. Proporcionan un análisis convincente que aclara las peculiaridades de larga data en el comportamiento del transformador, mostrando que los mecanismos de atención, especialmente con las máscaras causales, inherentemente modelos de sesgo hacia el comienzo de las secuencias. Saberi, profesor y director del Centro de Diseño del Mercado Computacional de Stanford, que no participó en este trabajo.
Más información:
Xinyi Wu et al, sobre la aparición del sesgo de posición en los transformadores, arxiv (2025). Doi: 10.48550/arxiv.2502.01951
arxiv
Proporcionado por el Instituto de Tecnología de Massachusetts
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/NewsOffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.
Citación: Lost in the Middle: cómo la arquitectura y los datos de entrenamiento de LLM forman el sesgo de posición de AI (2025, 17 de junio) recuperado el 17 de junio de 2025 de
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









