Crédito: Airam Dato-On de Pexels
Dada la reciente explosión de los modelos de idiomas grandes (LLM) que pueden hacer declaraciones convincentemente similares a los humanos, tiene sentido que haya habido un enfoque más profundo en desarrollar los modelos para poder explicar cómo toman decisiones. Pero, ¿cómo podemos estar seguros de que lo que están diciendo es la verdad?
En un nuevo artículo, los investigadores del Laboratorio de Informática e Inteligencia Artificial de Microsoft y MIT (CSAIL) proponen un método novedoso para medir las explicaciones de LLM con respecto a su “fidelidad”, es decir, con qué precisión una explicación representa el proceso de razonamiento detrás de la respuesta del modelo.
Como autor principal y Ph.D. La estudiante Katie Matton explica que la fidelidad no es una preocupación menor: si un LLM produce explicaciones que son plausibles pero infieles, los usuarios pueden desarrollar falsa confianza en sus respuestas y no reconocer cuándo se desalinean las recomendaciones con sus propios valores, como evitar el sesgo en la contratación.
En áreas como el cuidado de la salud o la ley, las explicaciones infieles podrían tener graves consecuencias: los investigadores llaman específicamente un ejemplo en el que GPT-3.5 dio calificaciones más altas a las candidatas femeninas en comparación con los hombres, incluso cuando se intercambiaron géneros, pero explicaron sus respuestas solo afectadas por la edad, las habilidades y los rasgos.
Los métodos previos para medir la fidelidad producen puntajes cuantitativos que pueden ser difíciles de interpretar para los usuarios, ¿qué significa que una explicación sea, por ejemplo, 0.63 fieles? Matton y sus colegas se centraron en desarrollar una métrica de fidelidad que podría ayudar a los usuarios a comprender las formas en que las explicaciones son engañosas.
Para lograr esto, introdujeron la “fidelidad conceptual causal”, que mide la diferencia entre el conjunto de conceptos en el texto de entrada que las explicaciones de LLM implica fueron influyentes para aquellos que realmente tuvieron un efecto causal en la respuesta del modelo. Examinar la discrepancia entre estos dos conjuntos de conceptos revela patrones interpretables de infidelidad, por ejemplo, que las explicaciones de una LLM no mencionan el género cuando deberían hacerlo.
Los investigadores primero utilizaron un LLM auxiliar para identificar los conceptos clave en la pregunta de entrada. A continuación, para evaluar el efecto causal de cada concepto en la respuesta de la LLM primaria, examinan si cambiar el concepto cambia la respuesta de la LLM.
Para hacer esto, usan el LLM auxiliar para generar preguntas contrafactuales realistas en las que se modifica el valor de un concepto, por ejemplo, cambiar el género de un candidato o eliminar una pieza de información clínica. Luego recopilan las respuestas de la LLM primaria a las preguntas contrafactuales y examinan cómo cambian sus respuestas.
La estimación de los efectos del concepto puede ser costosa porque implica llamadas repetidas al LLM para recopilar sus respuestas a las preguntas contrafactuales. Para abordar esto, el equipo emplea un modelo jerárquico bayesiano para estimar los efectos del concepto para múltiples preguntas conjuntamente.
En las pruebas empíricas, los investigadores compararon GPT-3.5, GPT-4O y Claude-3.5-Sonnet en dos conjuntos de datos de preguntas. Matton cita dos hallazgos particularmente importantes:
En un conjunto de datos de preguntas diseñadas para evaluar los sesgos sociales en los modelos de idiomas, encontraron casos en los que los LLM proporcionan explicaciones que enmascaran su dependencia de los sesgos sociales. En otras palabras, los LLM toman decisiones influenciadas por la información de identidad social, como raza, ingresos y género, pero luego justifican sus decisiones en función de otros factores, como el comportamiento de un individuo. En un conjunto de datos de preguntas médicas que involucran escenarios hipotéticos del paciente, el método del equipo reveló casos en los que las explicaciones de LLM omiten las pruebas que tienen un gran efecto en las respuestas del modelo con respecto al tratamiento y la atención del paciente.
Los autores observan algunas limitaciones a su método y análisis, incluida su dependencia del LLM auxiliar, que puede cometer errores ocasionales. Su enfoque también a veces puede subestimar los efectos causales de los conceptos que están altamente correlacionados con otros conceptos en la entrada; Sugieren intervenciones de concepto múltiple como una mejora futura.
El equipo de investigación dice que, al descubrir patrones específicos en explicaciones engañosas, su método puede permitir una respuesta específica a explicaciones infieles. Por ejemplo, un usuario que ve que un LLM exhibe un sesgo de género puede evitar usarlo para comparar candidatos de diferentes géneros, y un desarrollador de modelos podría implementar una solución a medida para corregir el sesgo. Matton dice que ve su método como un paso importante hacia la construcción de sistemas de IA más confiables y transparentes.
Más información: Katie Matton et al. Caminar por la charla? Medición de la fidelidad de las explicaciones del modelo de lenguaje grande. ICLR 2025 Spotlight. OpenReview.net/forum?id=4ub9gpx9xw
Proporcionado por el Instituto de Tecnología de Massachusetts
Cita: ¿Cómo podemos saber si AI está mintiendo? Nuevo método prueba si las explicaciones de IA son veraz (2025, 5 de junio) recuperadas el 5 de junio de 2025 de https://techxplore.com/news/2025-06-ai-method-explanations-truthful.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









