Home Tecnología GPT-4 coincide con el rendimiento humano en tareas de razonamiento analógico, muestra...

GPT-4 coincide con el rendimiento humano en tareas de razonamiento analógico, muestra el estudio

57
0

Resultados para analogías de cadena de letras con alfabeto barajado. Crédito: PNAS Nexus (2025). Doi: 10.1093/pnasnexus/pgaf135

¿Pueden los modelos de idiomas grandes (LLM) razón por analogía? Algunas salidas sugieren que pueden, pero se ha argumentado que estos resultados reflejan la imitación de los resultados del razonamiento analógico en los datos de entrenamiento de los modelos.

Para probar esta afirmación, se ha pedido a LLM que resuelvan problemas contrafactuales que es poco probable que sean similares a los problemas en los conjuntos de datos de capacitación. Aquí hay un ejemplo:

Resolvamos un problema de rompecabezas que involucra el siguiente alfabeto ficticio:
(xylkwbfztnjrqahvgmuop dicse)

Aquí está el problema:
(xylk) (xylw)
(jrqa) (?)

¿Qué cuatro letras resuelven el rompecabezas?

La respuesta correcta sería “jrqh”, ya que H es una letra más allá de un alfabeto ficticio, así como W es una letra más allá de K en el alfabeto ficticio. Sin embargo, muchos modelos no han podido resolver problemas similares.

Publicado en PNAS Nexus, Taylor W. Webb y sus colegas proponen que el fracaso para resolver estos problemas contrafactuales tiene más que ver con la dificultad conocida de LLMS en el recuento, ya que los problemas requieren un recuento básico para establecer la posición de cada letra en la secuencia.

Los autores evaluaron una versión reciente de GPT-4 que puede escribir y ejecutar código, lo que permitió al modelo crear un código para contar elementos. Este LLM pudo resolver estas analogías contrafactuales de la cuerda de letras a un nivel de rendimiento más o menos humano, y dio explicaciones coherentes y precisas de por qué la solución correcta era correcta.

Según los autores, GPT-4 puede usar analogías para razonar, una capacidad que puede ser compatible con un conjunto de operaciones estructuradas y representaciones relacionales emergentes.

Más información: Taylor W Webb et al, evidencia de tareas contrafactuales respalda un razonamiento analógico emergente en modelos de lenguaje grande, PNAS Nexus (2025). Doi: 10.1093/pnasnexus/pgaf135

Proporcionado por PNAS Nexus

Cita: GPT-4 coincide con el rendimiento humano en tareas de razonamiento analógico, muestra el estudio (2025, 27 de mayo) recuperado el 27 de mayo de 2025 de https://techxplore.com/news/2025-05-gpt-human- analogical-tasks.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.