AUC en el conjunto de pruebas de diferentes modelos de respuesta. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2503.13335
Evaluar el progreso de los nuevos modelos de lenguaje de IA puede ser tan desafiante como capacitarlos. Los investigadores de Stanford ofrecen un nuevo enfoque.
A medida que se implementan nuevas versiones de modelos de lenguaje de inteligencia artificial con una frecuencia creciente, muchos lo hacen con afirmaciones de rendimiento mejorado. Sin embargo, demostrar que un nuevo modelo es realmente mejor que el anterior sigue siendo un desafío difícil y costoso para el campo.
Por lo general, para demostrar su valía y mejorar la confianza de que los nuevos modelos son realmente mejores, los desarrolladores someten nuevos modelos a una batería de preguntas de referencia. Potencialmente, se almacenan cientos de miles de tales preguntas de referencia en los bancos de preguntas, y las respuestas deben ser revisadas por humanos, agregando tiempo y costo al proceso.
Las limitaciones prácticas hacen que sea imposible hacer cada modelo cada pregunta de referencia, por lo que los desarrolladores eligen un subconjunto, introduciendo el riesgo de sobreestimar las mejoras basadas en preguntas más suaves. Los investigadores de Stanford ahora han introducido una forma rentable de hacer estas evaluaciones en un nuevo artículo presentado en la Conferencia Internacional sobre Aprendizaje Autor (ICML 2025). El estudio es disponible en el servidor de preimpresión ARXIV.
“La observación clave que hacemos es que también debe explicar cuán difíciles son las preguntas”, dijo Sanmi Koyejo, profesora asistente de informática en la Escuela de Ingeniería que dirigió la investigación. “Algunos modelos pueden hacerlo mejor o peor por la suerte del sorteo. Estamos tratando de anticipar eso y ajustarlo para hacer comparaciones más justas”.
“Este proceso de evaluación a menudo puede costar tanto o más que la capacitación en sí”, agregó el coautor Sang Truong, un candidato a doctorado en el Laboratorio de Inteligencia Artificial de Stanford (SAIL). “Hemos creado una infraestructura que nos permite seleccionar adaptativamente subconjuntos de preguntas en función de la dificultad. Nivela el campo de juego”.
Manzanas y naranjas
Para lograr su objetivo, Koyejo, Truong y sus colegas han tomado prestado un concepto de décadas de la educación, conocida como teoría de respuesta de ítems, que tiene en cuenta la dificultad de la pregunta al calificar a los examinados. Koyejo lo compara con la forma en que las pruebas estandarizadas como el SAT y otros tipos de pruebas adaptativas funcionan. Cada respuesta correcta o incorrecta cambia la pregunta que sigue.
Los investigadores usan modelos de idiomas para analizar preguntas y calificarlas en dificultad, reduciendo los costos a la mitad y en algunos casos en más del 80%. Esa puntuación de dificultad permite a los investigadores comparar el rendimiento relativo de dos modelos.
Para construir un banco de preguntas grande, diverso y bien calibrado de una manera rentable, los investigadores usan los poderes generativos de la IA para crear un generador de preguntas que pueda ser ajustado a cualquier nivel de dificultad deseado. Esto ayuda a automatizar la reabastecimiento de los bancos de preguntas y el sacrificio de preguntas “contaminadas” de la base de datos.
Rápido y justo
Con preguntas mejor diseñadas, dicen los autores, otros en el campo pueden hacer mejores evaluaciones de rendimiento con un subconjunto mucho más pequeño de consultas. Este enfoque es más rápido, más justo y menos costoso.
El nuevo enfoque también funciona entre los dominios de conocimiento, desde la medicina y las matemáticas hasta la ley. Koyejo ha probado el sistema contra 22 conjuntos de datos y 172 modelos de lenguaje y descubrió que puede adaptarse fácilmente a nuevos modelos y preguntas.
Su enfoque fue capaz de trazar cambios sutiles en la seguridad de GPT 3.5 con el tiempo, al principio mejorando y luego retirarse en varias variaciones probadas en 2023. La seguridad del modelo de lenguaje es una métrica de cuán robusto es un modelo para la manipulación de datos, ataques adversos, explotación y otros riesgos.
Cuando una vez evaluando de manera confiable los modelos de lenguaje fue una perspectiva costosa e inconsistente, el nuevo enfoque de la teoría de la respuesta al ítem pone la evaluación rigurosa, escalable y adaptativa al alcance. Para los desarrolladores, esto significa mejores diagnósticos y evaluaciones de rendimiento más precisas. Para los usuarios, significa evaluaciones de modelos más justas y transparentes.
“Y, para todos los demás”, dijo Koyejo. “Significará un progreso más rápido y una mayor confianza en las herramientas de inteligencia artificial que evoluciona rápidamente”.
Más información: Sang Truong et al, evaluación basada en modelos amortizadas confiables y eficientes, ARXIV (2025). Doi: 10.48550/arxiv.2503.13335
Información en el diario: ARXIV
Proporcionado por la Universidad de Stanford
Cita: El nuevo método hace que las evaluaciones de modelos de lenguaje de IA sean más rápidas, más justas y menos costosas (2025, 15 de julio) recuperado el 15 de julio de 2025 de https://techxplore.com/news/2025-07-method-ai-language-faster.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.









