Las tablas de clasificación en línea evalúan los modelos de IA pidiéndole a las personas que califiquen el contenido generado en comparaciones cara a cara, en lo que los investigadores llaman un “LLM Smackdown”. Un sistema de clasificación defectuoso podría dar a un modelo el cinturón de campeonato por las razones equivocadas. Crédito: Generado por Google Gemini 2.5 Flash y editado por Derek Smith
Los mecanismos de clasificación defectuosos utilizados en las tablas de clasificación de IA pueden superarse a través de enfoques evaluados en la Universidad de Michigan.
En su estudiarLos investigadores de UM evaluaron el rendimiento de cuatro métodos de clasificación utilizados en las populares tablas de clasificación de IA en línea, como Chatbot Arena, así como otras tablas de clasificación deportiva y de juegos. Descubrieron que el tipo y la implementación de un método de clasificación pueden producir resultados diferentes, incluso con el mismo conjunto de datos de crowdsourcing del rendimiento del modelo. A partir de sus resultados, los investigadores desarrollaron pautas para las tablas de clasificación para representar el verdadero desempeño de los modelos de IA.
“Las grandes empresas siguen anunciando modelos de AI de generación más nuevos y más grandes, pero ¿cómo sabe qué modelo es realmente el mejor si sus métodos de evaluación no son precisos o están bien estudiados?” dijo Lingjia Tang, profesora asociada de informática e ingeniería y autora de coordinación del estudio.
“La sociedad está cada vez más interesada en adoptar esta tecnología. Para hacerlo de manera efectiva, necesitamos métodos sólidos para evaluar la IA para una variedad de casos de uso. Nuestro estudio identifica qué hace que un sistema de clasificación de IA efectivo y proporcione pautas sobre cuándo y cómo usarlos”.
Los modelos Gen AI son difíciles de evaluar porque los juicios sobre contenido generado por IA pueden ser subjetivos. Algunas tablas de clasificación evalúan cómo los modelos de IA con precisión realizan tareas específicas, como responder preguntas de opción múltiple, pero esas tablas de clasificación no evalúan qué tan bien una IA crea contenido diverso sin una sola respuesta correcta.
Para evaluar una producción más abierta, otras tablas de clasificación, como el popular chatbot Arena, piden a las personas que califiquen el contenido generado en comparaciones directas, en lo que los investigadores llaman un “LLM Smackdown”. Los contribuyentes humanos presentan ciegamente un aviso a dos modelos de IA aleatorios y luego registran su respuesta preferida en la base de datos de la tabla de clasificación, que luego se alimenta al sistema de clasificación.
Pero las clasificaciones pueden depender de la implementación de los sistemas. Chatbot Arena una vez usó un sistema de clasificación llamado ELO, que también se usa comúnmente para clasificar a los jugadores de ajedrez y los atletas. Tiene configuraciones que permiten a los usuarios establecer cuán drásticamente una victoria o una pérdida cambia las clasificaciones de la tabla de clasificación, y cómo ese impacto cambia en función de la edad del jugador o el modelo. En teoría, estas características permiten que un sistema de clasificación sea más flexible, pero la configuración adecuada para evaluar la IA no siempre es obvio.
Los diferentes algoritmos de clasificación pueden producir diferentes clasificaciones con los mismos datos de evaluación humana, lo que dificulta determinar qué algoritmo es apropiado para varios casos de uso. Crédito: Roland Daynauth et al.
“En los partidos de ajedrez y deportes, hay un orden lógico de juegos que proceden a medida que las habilidades de los jugadores cambian sobre sus carreras. Pero los modelos de IA no cambian entre lanzamientos, y pueden jugar instantáneamente y simultáneamente muchos juegos”, dijo Roland Daynauth, estudiante de doctorado de UM en ciencias de la computación e ingeniería y el primer autor del estudio.
Para ayudar a prevenir el mal uso accidental, los investigadores evaluaron cada sistema de calificación al alimentarles una parte de dos conjuntos de datos de crowdsourcing del rendimiento del modelo de IA, uno de Chatbot Arena y otro previamente recopilado por los investigadores. Luego verificaron para ver cuán precisamente sus clasificaciones coincidían con la tasa de victorias en una parte retenida de los conjuntos de datos.
También verificaron cuán sensibles eran las clasificaciones de cada sistema a la configuración definida por el usuario, y si las clasificaciones siguieron la lógica de todas las comparaciones por pares: si A Beats B y B son los latidos C, entonces A debe clasificarse más alto que C.
Descubrieron que Glicko, un sistema de clasificación utilizado en los deportes electrónicos, tiende a producir los resultados más consistentes, especialmente cuando el número de comparaciones es desigual. Otros sistemas de clasificación, como el sistema Bradley-Terry que Chatbot Arena Implementado en diciembre de 2023, también podría ser preciso, pero solo cuando cada modelo tenía un número par de comparaciones. Tal sistema podría permitir que un modelo más nuevo parezca más fuerte de lo justificado.
“El hecho de que un modelo entra en escena y supere a un gran maestro no significa necesariamente que sea el mejor modelo. Necesitas muchos, muchos juegos para saber cuál es la verdad”, dijo Jason Mars, profesor asociado de informática e ingeniería de UM y autor coordinante del estudio.
Por el contrario, las clasificaciones realizadas por el sistema ELO, así como las cadenas de Markov utilizadas por Google para clasificar las páginas en una búsqueda web, dependían en gran medida de cómo los usuarios configuraban el sistema. El sistema Bradley-Terry carece de configuraciones definidas por el usuario, por lo que podría ser la mejor opción para conjuntos de datos grandes con un número par de comparaciones para cada IA.
“No hay una sola respuesta correcta, así que esperamos que nuestro análisis ayude a guiar cómo evaluamos la industria de la IA en el futuro”, dijo Tang.
Más información: Roland Daynauth et al. Ranking Unlveled: Recetas para clasificaciones LLM en combate IA cara a cara: aclanthology.org/2025.acl-long.1265/
Proporcionado por la Universidad de Michigan
Cita: Por qué las tablas de clasificación de IA son inexactas y cómo solucionarlas (2025, 29 de julio) recuperaron el 29 de julio de 2025 de https://techxplore.com/news/2025-07-ai-Leaderboards-inacCoate.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.








