Home Tecnología Los investigadores prueban la confiabilidad de la IA enseñándola para jugar a...

Los investigadores prueban la confiabilidad de la IA enseñándola para jugar a Sudoku

50
0

Crédito: Dominio público de Pixabay/CC0

Las herramientas de inteligencia artificial llamadas grandes modelos de idiomas (LLM), como el chatgpt de Openai o el géminis de Google, pueden hacer mucho en estos días: dispersando consejos de relaciones, elaboración de textos para sacarlo de las obligaciones sociales e incluso escribir artículos de ciencias.

¿Pero también pueden resolver su Sudoku de la mañana?

En un nuevo estudio, un equipo de informáticos de la Universidad de Colorado Boulder decidió averiguarlo. El grupo creó casi 2,300 rompecabezas originales de Sudoku, que requieren que los jugadores ingresen números en una cuadrícula siguiendo ciertas reglas, luego solicitó a varias herramientas de IA que los llenaran.

Los resultados fueron una bolsa mixta. Mientras que algunos de los modelos de IA podrían resolver a Easy Sudokus, incluso los mejor luchados para explicar cómo los resolvieron: dar vegetación confusa, inexacta o incluso descripciones surrealistas de cómo llegaron a sus respuestas. Los resultados plantean preguntas sobre la confiabilidad de la información generada por la IA, dijo la coautora del estudio Maria Pacheco.

“Para ciertos tipos de rompecabezas de Sudoku, la mayoría de los LLM aún se quedan cortos, particularmente en la producción de explicaciones que son de alguna manera utilizables para los humanos”, dijo Pacheco, profesor asistente en el Departamento de Ciencias de la Computación. “¿Por qué se le ocurrió esa solución? ¿Cuáles son los pasos que debe tomar para llegar allí?”

Ella y sus colegas tienen Publicado sus resultados En los resultados de la Asociación de Lingüística Computacional.

Los investigadores no están tratando de hacer trampa en los rompecabezas. En cambio, están utilizando estos ejercicios lógicos para explorar cómo piensan las plataformas AI. Los resultados algún día podrían conducir a programas informáticos más confiables y confiables, dijo el coautor del estudio Fabio Somenzi, profesor en el Departamento de Ingeniería Eléctrica, Informática y Energética.

“Los rompecabezas son divertidos, pero también son un microcosmos para estudiar el proceso de toma de decisiones en el aprendizaje automático”, dijo. “Si tiene AI, prepare sus impuestos, desea poder explicarle al IRS por qué la IA escribió lo que escribió”.

Rompecabezas diario

Somenzi, quien es un fanático de Sudoku autodescrito, señaló que los rompecabezas aprovechan una forma de pensar muy humana. Completar una cuadrícula de Sudoku requiere que los rompecabezas aprendan y sigan un conjunto de reglas lógicas. Por ejemplo, no puede ingresar a dos en un cuadrado vacío si ya hay dos en la misma fila o columna.

La mayoría de los LLM de hoy luchan en ese tipo de pensamiento, en gran parte debido a cómo están entrenados.

Para construir chatgpt, por ejemplo, los programadores primero alimentaron a la IA casi todo lo que se había escrito en Internet. Cuando ChatGPT responde a una pregunta, predice la respuesta más probable en función de todos esos datos, casi como una versión de computadora de memoria de memoria.

“Lo que hacen es esencialmente predecir la siguiente palabra”, dijo Pacheco. “Si tienes el comienzo de una oración, ¿qué palabra viene a continuación? Lo hacen refiriéndose a cada oración en el idioma inglés que pueden tener en sus manos”.

Pacheco, Somenzi y sus colegas se han unido a un creciente esfuerzo en la informática para fusionar esas dos formas de pensar, combinando la memoria de una LLM con la capacidad de lógica de un cerebro humano, una búsqueda conocida como IA “neuroesímbólica”.

Anirudh Maiya y Razan Alghamdi, ambos ex estudiantes de posgrado en CU Boulder, también fueron coautores del nuevo artículo.

¿Cómo está el clima?

Para comenzar, los investigadores crearon rompecabezas de sudoku de variable dificultad utilizando una cuadrícula de seis por seis (una versión más simple de los nueve por nueve rompecabezas que generalmente se encuentran en línea).

Luego dieron los rompecabezas a una serie de modelos de IA, incluida la vista previa del modelo O1 de OpenAI, que, en 2023, representaba el estado del arte para su tipo de LLM.

El modelo O1 lideró el paquete, resolviendo aproximadamente el 65% de los rompecabezas de Sudoku correctamente. Luego, el equipo le pidió a las plataformas AI que explicaran cómo obtuvieron sus respuestas. Fue entonces cuando los resultados se volvieron realmente salvajes.

“A veces, las explicaciones de la IA constituían hechos”, dijo Ashutosh Trivedi, coautor del estudio y profesor asociado de informática en CU Boulder. “Entonces podría decir:” No puede haber dos aquí porque ya hay dos en la misma fila “, pero ese no fue el caso”.

En un ejemplo revelador, los investigadores estaban hablando con una de las herramientas de IA sobre la resolución de Sudoku cuando, por razones desconocidas, respondió con un pronóstico del tiempo.

“En ese momento, la IA se había vuelto loco y estaba completamente confundido”, dijo Somenzi.

Los investigadores esperan diseñar su propio sistema de IA que pueda hacerlo todo, que resuelven rompecabezas complicados y explican cómo. Están comenzando con otro tipo de rompecabezas llamado Hitori, que, como Sudoku, involuciona una cuadrícula de números.

“La gente habla sobre las capacidades emergentes de la IA, donde terminan poder resolver cosas que no esperarías que resuelvan”, dijo Pacheco. “Al mismo tiempo, no es sorprendente que sigan siendo malos en muchas tareas”.

Más información: Anirudh Maiya et al, Explicando soluciones de rompecabezas en lenguaje natural: un estudio exploratorio en 6×6 Sudoku (2025)

Proporcionado por la Universidad de Colorado en Boulder

Cita: los investigadores prueban la confiabilidad de la IA enseñándola a jugar a Sudoku (2025, 28 de julio) recuperado el 28 de julio de 2025 de https://techxplore.com/news/2025-07-trustworthiness-ai-play-sudoku.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias