Home Tecnología Cómo AI aprende a leer

Cómo AI aprende a leer

11
0

Crédito: dominio público Unsplash/CC0

Las capacidades lingüísticas de los sistemas de inteligencia artificial actual son sorprendentes. Ahora podemos participar en conversaciones naturales con sistemas como ChatGPT, Géminis y muchos otros, con una fluidez casi comparable a la de un ser humano. Sin embargo, todavía sabemos muy poco sobre los procesos internos en estas redes que conducen a resultados tan notables.

Un estudio titulado “Una transición de fase entre el aprendizaje posicional y semántico en un modelo solucionable de atención del producto DOT”, publicado en el Journal of Statistical Mechanics: Theory and Experiment revela una pieza de este misterio.

Muestra que cuando se utilizan pequeñas cantidades de datos para la capacitación, las redes neuronales inicialmente dependen de la posición de las palabras en una oración. Sin embargo, a medida que el sistema está expuesto a suficientes datos, pasa a una nueva estrategia basada en el significado de las palabras.

El estudio encuentra que esta transición ocurre abruptamente, una vez que se cruza un umbral de datos crítico, al igual que una transición de fase en los sistemas físicos. Los hallazgos ofrecen ideas valiosas para comprender el funcionamiento de estos modelos.

Al igual que un niño que aprende a leer, una red neuronal comienza entendiendo las oraciones basadas en las posiciones de las palabras: dependiendo de dónde se encuentren las palabras en una oración, la red puede inferir sus relaciones (¿son sujetos, verbos, objetos?). Sin embargo, a medida que la capacitación continúa, la red “sigue yendo a la escuela”, ocurre un cambio: el significado de palabras se convierte en la principal fuente de información.

Esto, explica el nuevo estudio, es lo que sucede en un modelo simplificado del mecanismo de autoatición: un bloque de construcción central de modelos de lenguaje de transformadores, como los que usamos todos los días (chatgpt, gemini, Claude, etc.).

Un transformador es una arquitectura de red neuronal diseñada para procesar secuencias de datos, como el texto, y forma la columna vertebral de muchos modelos de idiomas modernos. Los transformadores se especializan en la comprensión de las relaciones dentro de una secuencia y usan el mecanismo de autoatención para evaluar la importancia de cada palabra en relación con las demás.

“Evaluar las relaciones entre palabras”, explica Hugo Cui, un investigador postdoctoral de la Universidad de Harvard y primer autor del estudio, “la red puede usar dos estrategias, una de las cuales es explotar las posiciones de las palabras”. En un idioma como el inglés, por ejemplo, el tema generalmente precede al verbo, lo que a su vez precede al objeto. “Mary come la manzana” es un ejemplo simple de esta secuencia.

“Esta es la primera estrategia que emerge espontáneamente cuando la red está entrenada”, explica Cui. “Sin embargo, en nuestro estudio, observamos que si la capacitación continúa y la red recibe suficientes datos, en cierto punto, una vez que se cruza un umbral, la estrategia cambia abruptamente: la red comienza a confiar en el significado”.

“Cuando diseñamos este trabajo, simplemente queríamos estudiar qué estrategias, o combinar las estrategias, las redes adoptarían. Pero lo que encontramos fue algo sorprendente: por debajo de cierto umbral, la red se basó exclusivamente en la posición, mientras está por encima de ella, solo en el significado”.

CUI describe este cambio como una transición de fase, tomando prestado un concepto de la física. Sistemas de estudios de física estadística compuestos de enormes números de partículas (como átomos o moléculas) al describir estadísticamente su comportamiento colectivo.

Del mismo modo, las redes neuronales, la base de estos sistemas de IA, están compuestas por un gran número de “nodos”, o neuronas (nombradas por analogía con el cerebro humano), cada una conectada a muchos otros y realizando operaciones simples. La inteligencia del sistema emerge de la interacción de estas neuronas, un fenómeno que puede describirse con métodos estadísticos.

Es por eso que podemos hablar de un cambio abrupto en el comportamiento de la red como una transición de fase, similar a la forma en que el agua, bajo ciertas condiciones de temperatura y presión, cambia de líquido a gas.

“Comprender desde un punto de vista teórico de que el cambio de estrategia ocurre de esta manera es importante”, enfatiza Cui.

“Nuestras redes se simplifican en comparación con los modelos complejos con los que las personas interactúan a diario, pero pueden darnos pistas para comenzar a comprender las condiciones que hacen que un modelo se estabilice en una estrategia u otra. Este conocimiento teórico podría usarse en el futuro para hacer que el uso de redes neuronales sea más eficiente y más segura”.

Más información: una transición de fase entre el aprendizaje posicional y semántico en un modelo solucionable de atención del producto DOT, Journal of Statistical Mechanics Theory and Experiment (2025).

Proporcionado por Sissa Medialab

Cita: de posición a significado: Cómo AI aprende a leer (2025, 7 de julio) Recuperado el 7 de julio de 2025 de https://techxplore.com/news/2025-07-position-ai.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias