Home Tecnología Los modelos de IA están alucinando más (y no está claro por...

Los modelos de IA están alucinando más (y no está claro por qué)

72
0

Las alucinaciones siempre han sido un problema para los modelos de IA generativos: la misma estructura que les permite ser creativos y producir texto e imágenes también los hace propensos a inventar cosas. Y el problema de la alucinación no está mejorando a medida que avanzan los modelos de IA, de hecho, está empeorando.

En un nuevo informe técnico de Openai (a través del New York Times), la compañía detalla cómo sus últimos modelos O3 y O4-Mini alucinan el 51 por ciento y el 79 por ciento, respectivamente, en un punto de referencia de IA conocido como SimpleQA. Para el modelo O1 anterior, la tasa de alucinación SimpleQA es del 44 por ciento.

Esas son figuras sorprendentemente altas y se dirigen en la dirección equivocada. Estos modelos se conocen como modelos de razonamiento porque piensan en sus respuestas y los entregan más lentamente. Claramente, basado en las propias pruebas de OpenAi, este reflejo de las respuestas está dejando más espacio para los errores e inexactitudes para introducir.

Los hechos falsos no se limitan de ninguna manera a OpenAI y ChatGPT. Por ejemplo, no me llevó mucho tiempo cuando probando la función de búsqueda de descripción general de AI de Google para que cometa un error, y la incapacidad de AI para extraer correctamente la información de la web ha sido bien documentada. Recientemente, un bot de soporte para la aplicación de codificación de IA Cursor anunció un cambio de política que en realidad no se había hecho.

Pero no encontrará muchas menciones de estas alucinaciones en los anuncios que hacen las compañías de IA sobre sus últimos y mejores productos. Junto con el uso de energía y la infracción de los derechos de autor, las alucinaciones son algo de lo que los grandes nombres de la IA preferirían no hablar.

Anecdóticamente, no he notado demasiadas inexactitudes al usar búsqueda de IA y bots; la tasa de error ciertamente no está cerca del 79 por ciento, aunque se cometen errores. Sin embargo, parece que este es un problema que podría nunca desaparecer, particularmente porque los equipos que trabajan en estos modelos de IA no entienden completamente por qué ocurren alucinaciones.

En las pruebas ejecutadas por el desarrollador de la plataforma AI Vectera, los resultados son mucho mejores, aunque no perfectos: aquí, muchos modelos muestran tasas de alucinación de uno a tres por ciento. El modelo O3 de OpenAI es de 6.8 por ciento, con el nuevo (y más pequeño) O4-Mini en 4.6 por ciento. Eso está más en línea con mi experiencia que interactúa con estas herramientas, pero incluso un número muy bajo de alucinaciones puede significar un gran problema, especialmente a medida que transferimos más y más tareas y responsabilidades a estos sistemas de IA.

Encontrar las causas de las alucinaciones

Chatgpt sabe que no debe poner pegamento en la pizza, al menos. Crédito: Lifehacker

Nadie sabe realmente cómo arreglar las alucinaciones o identificar completamente sus causas: estos modelos no están construidos para seguir las reglas establecidas por sus programadores, sino para elegir su propia forma de trabajar y responder. El presidente ejecutivo de Vartara, Amr Awadallah, dijo al New York Times que los modelos de IA “siempre alucinarán”, y que estos problemas “nunca desaparecerán”.

El profesor de la Universidad de Washington, Hannaneh Hajishirzi, que trabaja en formas de revertir las respuestas de IA, le dijo al NYT que “todavía no sabemos cómo funcionan exactamente estos modelos”. Al igual que la resolución de problemas de un problema con su automóvil o su PC, debe saber qué salió mal al hacer algo al respecto.

Según el investigador Neil Chowdhury, de AI Analysis Lab Transluce, la forma en que se construyen los modelos de razonamiento pueden estar empeorando el problema. “Nuestra hipótesis es que el tipo de aprendizaje de refuerzo utilizado para los modelos de la serie O puede amplificar los problemas que generalmente son mitigados (pero no completamente borrados) por las tuberías posteriores al entrenamiento”, dijo a TechCrunch.

¿Qué piensas hasta ahora?

Mientras tanto, en el informe de desempeño de OpenAI, se menciona el tema del “menos conocimiento mundial”, mientras que también se observa que el modelo O3 tiende a hacer más afirmaciones que su predecesor, lo que lleva a más alucinaciones. Sin embargo, en última instancia, “se necesita más investigación para comprender la causa de estos resultados”, según OpenAi.

Y hay muchas personas que realizan esa investigación. Por ejemplo, los académicos de la Universidad de Oxford han publicado un método para detectar la probabilidad de alucinaciones midiendo la variación entre múltiples salidas de IA. Sin embargo, esto cuesta más en términos de tiempo y potencia de procesamiento, y realmente no resuelve el problema de las alucinaciones, solo le dice cuándo es más probable.

Si bien dejar que los modelos de IA verifiquen sus hechos en la web pueden ayudar en ciertas situaciones, tampoco son particularmente buenos en esto. Faltan (y nunca tendrán) un sentido común humano simple que dice que el pegamento no debe ponerse en una pizza o que $ 410 para un café Starbucks es claramente un error.

Lo definitivo es que los bots de IA no se pueden confiar todo el tiempo, a pesar de su tono seguro, ya sea que le brinden resúmenes de noticias, asesoramiento legal o transcripciones de entrevistas. Es importante recordar que estos modelos de IA aparecen cada vez más en nuestra vida personal y laboral, y es una buena idea limitar la IA a los casos de uso donde las alucinaciones son menos importantes.

Divulgación: la empresa matriz de Lifehacker, Ziff Davis, presentó una demanda contra Operai en abril, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA.