Home Tecnología Los chatbots de IA permanecen demasiado confidenciales, incluso cuando se equivocan, el...

Los chatbots de IA permanecen demasiado confidenciales, incluso cuando se equivocan, el estudio encuentra

9
0

Crédito: dominio público Unsplash/CC0

Los chatbots de inteligencia artificiales están en todas partes en estos días, desde aplicaciones de teléfonos inteligentes y portales de servicio al cliente hasta motores de búsqueda en línea. Pero, ¿qué sucede cuando estas prácticas herramientas sobreestiman sus propias habilidades?

Los investigadores preguntaron tanto a los participantes humanos como a cuatro modelos de idiomas grandes (LLM) cuán seguros se sentían en su capacidad para responder preguntas de trivia, predecir los resultados de los juegos de la NFL o las ceremonias de premios de la academia, o jugar un juego de identificación de imágenes similar a un pictory. Tanto la gente como el LLMS tendían a estar demasiado confiados en cómo funcionarían hipotéticamente. Curiosamente, también respondieron preguntas o identificaron imágenes con tasas de éxito relativamente similares.

Sin embargo, cuando se les preguntó a los participantes y LLMS retroactivamente qué tan bien pensaron que lo hicieron, solo los humanos parecían capaces de ajustar las expectativas, según un estudio publicado en la revista Memory & Cognition.

“Digamos que la gente nos dijo que iban a obtener 18 preguntas correctas, y terminaron haciendo 15 preguntas correctas. Por lo general, su estimación posterior sería algo así como 16 respuestas correctas”, dijo Trent Cash, quien recientemente completó un Ph.D. en la Universidad Carnegie Mellon en los Departamentos de Ciencia y Psicología de la Decisión Social. “Entonces, todavía estarían un poco exagerados, pero no tan concentrados”.

“El LLM no hizo eso”, dijo Cash, quien fue autor principal del estudio. “Tendían, en todo caso, a tener más confianza, incluso cuando no les fue tan bien en la tarea”.

El mundo de la IA está cambiando rápidamente cada día, lo que hace que sacar conclusiones generales sobre sus aplicaciones sea desafiante, reconoció el efectivo.

Sin embargo, una fortaleza del estudio fue que los datos se recopilaron en el transcurso de dos años, lo que significaba usar versiones continuamente actualizadas de los LLM conocidos como ChatGPT, Bard/Gemini, Sonnet y Haiku. Esto significa que el exceso de confianza de la IA fue detectable en diferentes modelos con el tiempo.

“Cuando una IA dice algo que parece un poco sospechoso, los usuarios pueden no ser tan escépticos como deberían ser porque la IA afirma la respuesta con confianza, incluso cuando esa confianza es injustificada”, dijo Danny Oppenheimer, profesor del Departamento de Ciencias Sociales y de Decisión de CMU y coautor del estudio.

“Los humanos han evolucionado con el tiempo y han practicado desde su nacimiento para interpretar las señales de confianza emitidas por otros humanos. Si mi ceja surco o estoy lento para responder, es posible que no esté seguro de lo que estoy diciendo, pero con IA, no tenemos tantos señales sobre si sabe de qué está hablando”, dijo Oppenheimer.

Hacer las preguntas correctas de IA

Si bien la precisión de los LLM en responder preguntas de trivia y predecir los resultados del juego de fútbol es de apuestas relativamente bajas, la investigación sugiere las dificultades asociadas con la integración de estas tecnologías en la vida diaria.

Por ejemplo, un reciente estudiar Realizado por la BBC descubrió que cuando se les hicieron preguntas sobre las noticias sobre las noticias, más de la mitad de las respuestas tenían “problemas significativos”, incluidos errores objetivos, errores erróneos de fuentes y un contexto faltante o engañoso. Del mismo modo, otro estudio de 2023 encontró LLM “alucinado” o produjo información incorrecta, en 69 a 88% de consultas legales.

Claramente, la pregunta de si AI sabe de lo que está hablando nunca ha sido más importante. Y la verdad es que los LLM no están diseñados para responder a todo lo que los usuarios les están lanzando a diario.

“Si hubiera preguntado ‘cuál es la población de Londres’, la IA habría buscado en la web, dada una respuesta perfecta y dada una calibración de confianza perfecta”, dijo Oppenheimer.

Sin embargo, al hacer preguntas sobre eventos futuros, como los ganadores de los próximos premios de la Academia, o temas más subjetivos, como la identidad prevista de una imagen dibujada a mano, los investigadores pudieron exponer la aparente debilidad de los chatbots en la metacognición.

“Todavía no sabemos exactamente cómo AI estima su confianza”, dijo Oppenheimer, “pero parece no participar en la introspección, al menos no hábilmente”.

El estudio también reveló que cada LLM tiene fortalezas y debilidades. En general, el LLM conocido como soneto tendía a ser menos exagerado que sus pares. Del mismo modo, ChatGPT-4 se desempeñó de manera similar a los participantes humanos en el juicio similar a Pictionary, identificando con precisión 12.5 imágenes dibujadas a mano de 20, mientras que Gemini podría identificar solo 0.93 bocetos, en promedio.

Además, Gemini predijo que obtendría un promedio de 10.03 bocetos correctos, e incluso después de responder a menos de una de las 20 preguntas correctamente, el LLM estimó retrospectivamente que había respondido 14.40 correctamente, demostrando su falta de autoconciencia.

“Géminis fue realmente muy malo jugando Pictionary”, dijo Cash. “Pero peor aún, no sabía que era malo en Pictionary. Es como ese amigo que jura que son geniales en la piscina pero nunca hace una oportunidad”.

Construyendo confianza con la inteligencia artificial

Para los usuarios de chatbot cotidianos, Cash dijo que la mayor comida para recordar es recordar que los LLM no son inherentemente correctos y que podría ser una buena idea preguntarles qué tan seguros están al responder preguntas importantes.

Por supuesto, el estudio sugiere que LLMS podría no siempre poder juzgar con precisión la confianza, pero en el caso de que el chatbot reconozca la baja confianza, es una buena señal de que se puede confiar en su respuesta.

Los investigadores señalan que también es posible que los chatbots puedan desarrollar una mejor comprensión de sus propias habilidades sobre conjuntos de datos mucho más grandes.

“Tal vez si tuviera miles o millones de pruebas, lo haría mejor”, dijo Oppenheimer.

En última instancia, exponer las debilidades como el exceso de confianza solo ayudará a aquellos en la industria que están desarrollando y mejorando LLM. Y a medida que AI se vuelve más avanzada, puede desarrollar la metacognición requerida para aprender de sus errores.

“Si los LLM pueden determinar recursivamente que estaban equivocados, entonces eso soluciona muchos de los problemas”, dijo Cash.

“Creo que es interesante que los LLM a menudo no aprendan de su propio comportamiento”, dijo Cash. “Y tal vez hay una historia humanista que contar allí. Tal vez hay algo especial sobre la forma en que los humanos aprenden y se comunican”.

Más información: Cuantificación de Incert-AI-Nty: Prueba de la precisión de los juicios de confianza de LLMS, memoria y cognición (2025). Dos: 10.3758/s13421-025-01755-4

Proporcionado por la Universidad Carnegie Mellon

Cita: los chatbots de IA siguen siendo demasiado confidenciales, incluso cuando se equivocan, el estudio encuentra (2025, 22 de julio) recuperado el 22 de julio de 2025 de https://techxplore.com/news/2025-07-ai-chatbots-overcident- theyre-wrong.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias