Crédito: dominio público Unsplash/CC0
Incluso con toda su capacitación y potencia de computadora, una herramienta de inteligencia artificial (IA) como ChatGPT no puede representar el concepto de una flor como lo hace un humano, según un nuevo estudio.
Esto se debe a los modelos de idiomas grandes (LLM) que los asistentes de IA de alimentación generalmente se basan solo en el lenguaje y, a veces, con imágenes.
“Un modelo de lenguaje grande no puede oler una rosa, tocar los pétalos de una margarita o caminar por un campo de flores silvestres”, dijo Qihui Xu, autor principal del estudio e investigador postdoctoral en psicología en la Universidad Estatal de Ohio.
“Sin esas experiencias sensoriales y motoras, realmente no puede representar lo que una flor es en toda su riqueza. Lo mismo es cierto para algunos otros conceptos humanos”.
El estudio se publica en la revista Nature Human Behavior.
Xu dijo que los hallazgos tienen implicaciones sobre cómo la IA y los humanos se relacionan entre sí.
“Si AI interpreta al mundo de una manera fundamentalmente diferente de los humanos, podría afectar cómo interactúa con nosotros”, dijo.
Xu y sus colegas compararon a los humanos y LLM en su representación de conocimiento de 4,442 palabras, todo desde “flor” y “pezuña” hasta “humorístico” y “swing”.
Compararon la similitud de las representaciones entre humanos y dos familias LLM de última generación de OpenAI (GPT-3.5 y GPT-4) y Google (Palm and Gemini).
Los humanos y los LLM fueron probados en dos medidas. Uno, llamado las normas de Glasgow, solicita clasificaciones de palabras en nueve dimensiones, como excitación, concreción y imaginación. Por ejemplo, la medida solicita clasificaciones de cuán emocionalmente excitante es una flor y cuánto se puede visualizar mentalmente una flor (o cuán imaginable es).
La otra medida, llamada Lancaster Norms, examinó cómo los conceptos de palabras están relacionados con la información sensorial (como el tacto, la audición, el olfato, la visión) y la información motora, que están involucradas con acciones, como lo que los humanos hacen a través del contacto con la boca, la mano, el brazo y el torso.
Por ejemplo, la medida solicita clasificaciones sobre cuánto experimenta flores al oler y cuánto experimenta flores usando acciones del torso.
El objetivo era ver cómo los LLM y los humanos estaban alineados en sus clasificaciones de las palabras. En un análisis, los investigadores examinaron cuánto se correlacionaron los humanos y la IA en los conceptos. Por ejemplo, ¿los LLM y los humanos están de acuerdo en que algunos conceptos tienen una mayor excitación emocional que otros?
En un segundo análisis, los investigadores investigaron cómo los humanos en comparación con los LLM en decidir cómo las diferentes dimensiones pueden contribuir conjuntamente a la representación conceptual general de una palabra y cómo las diferentes palabras están interconectadas.
Por ejemplo, los conceptos de “pasta” y “rosas” podrían recibir altas calificaciones sobre cuánto implican el sentido del olfato. Sin embargo, la pasta se considera más similar a los fideos que a las rosas, al menos para los humanos, no solo por su olor, sino también su apariencia visual y sabor.
En general, el LLMS lo hizo muy bien en comparación con los humanos al representar palabras que no tenían ninguna conexión con los sentidos y las acciones motoras. Pero cuando se trataba de palabras que tienen conexiones con las cosas que vemos, sabemos o interactúamos con el uso de nuestro cuerpo, ahí es donde la IA no pudo capturar conceptos humanos.
“Desde el intenso aroma de una flor, el toque vívido sedoso cuando acariciamos los pétalos, hasta la profunda alegría, la representación humana de la ‘flor’ une estas diversas experiencias e interacciones en una categoría coherente”, dicen los investigadores en el documento.
El problema es que la mayoría de los LLM dependen del lenguaje, y “el lenguaje en sí mismo no puede recuperar completamente la representación conceptual en toda su riqueza”, dijo Xu.
Aunque los LLM pueden aproximar algunos conceptos humanos, particularmente cuando no involucran sentidos o acciones motoras, este tipo de aprendizaje no es eficiente.
“Obtienen lo que saben al consumir grandes cantidades de texto, órdenes de magnitud más grandes de lo que un humano está expuesto en toda su vida, y aún no puede capturar algunos conceptos como lo hacen los humanos”, dijo Xu.
“La experiencia humana es mucho más rica de lo que solo las palabras pueden contener”.
Pero Xu señaló que los LLM están mejorando continuamente y es probable que mejoren para capturar conceptos humanos. El estudio descubrió que los LLM que están entrenados con imágenes y texto lo hicieron mejor que los modelos solo de texto para representar conceptos relacionados con la visión.
Y cuando los futuros LLM se aumentan con los datos del sensor y la robótica, es posible que puedan hacer inferencias y actuar sobre el mundo físico, dijo.
Los coautores del estudio fueron Yingying Peng, Ping Li y Minghua Wu de la Universidad Politécnica de Hong Kong; Samuel Nastase de la Universidad de Princeton; y Martin Chodorow de la Universidad de la Ciudad de Nueva York.
Más información: Modelos de lenguaje grande sin fundamento recuperar las características no sensoriomotoras pero no sensoriomotoras de los conceptos humanos, el comportamiento humano de la naturaleza (2025). Doi: 10.1038/s41562-025-02203-8
Proporcionado por la Universidad Estatal de Ohio
Cita: Por qué la IA no puede entender una flor como lo hacen los humanos (2025, 4 de junio) recuperado el 4 de junio de 2025 de https://techxplore.com/news/2025-06-ai-humans.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.








