Crédito: Dominio público de Pixabay/CC0
Imagine desarrollar una perilla de control más fina para aplicaciones de inteligencia artificial (IA) como Google Gemini y OpenAI Chatgpt.
Mikhail Belkin, profesor del Instituto de Ciencia de Datos Halıcıoğlu (HDSI) de UC San Diego (HDSI), parte de la Escuela de Computación, Información y Ciencias de los Datos (SCID), ha estado trabajando con un equipo que ha hecho exactamente eso. Específicamente, los investigadores han descubierto un método que permite una dirección y modificación más precisas de modelos de idiomas grandes (LLM): los poderosos sistemas de IA detrás de herramientas como Gemini y ChatGPT. Belkin dijo que este avance podría conducir a una IA más segura, más confiable y más adaptable.
La investigación se basa en el trabajo reciente que se ha publicado en Science and Proceedings of the National Academy of Sciences.
“Actualmente, mientras que los LLM demuestran habilidades impresionantes para generar texto, traducir idiomas y responder preguntas, su comportamiento a veces puede ser impredecible o incluso dañino”, dijo Belkin. “Pueden producir contenido sesgado, difundir información errónea o exhibir un lenguaje tóxico”.
El equipo de investigación multiinstitucional incluye a Belkin, Daniel Beaglehole (Departamento de Ingeniería e Ingeniería de la UC San Diego Escuela de Ingeniería), Adityanarayanan Radhakrishnan (Broad Institute of MIT y Harvard Seas) y Enric Boix-Adserà (MIT Mathematics y Harvard CMSA).
Belkin dijo que abordaron este desafío desarrollando un nuevo método de “aprendizaje de características no lineales”. Esta técnica les permitió identificar y manipular importantes características subyacentes dentro de la red compleja de la LLM.
Piense en ello como comprender los ingredientes individuales en un pastel en lugar de solo el producto final. Al comprender estos componentes centrales, los investigadores guiaron la salida de la aplicación AI en direcciones más deseables.
“Es como si estuviéramos obteniendo una comprensión más profunda del proceso de pensamiento interno de la aplicación AI”, explicó Belkin. “Esto nos permite no solo predecir qué tipo de salidas generará el modelo, sino también influir activamente en respuestas más útiles y menos dañinas”.
Su enfoque consistió en analizar las activaciones internas de la LLM en diferentes capas. Esto les permitió identificar qué características son responsables de conceptos específicos, como toxicidad o precisión objetiva. Una vez que se identificaron estas características, los investigadores las ajustaron para alentar o desalentar ciertos comportamientos.
El equipo demostró la efectividad de su método en una variedad de tareas, incluida la detección y mitigación de alucinaciones (casos en que la IA genera información falsa), daños y toxicidad. También mostraron que su técnica podría dirigir LLM para comprender mejor los conceptos en varios idiomas, incluido el inglés y el lenguaje poético de Shakespeare.
“Uno de los beneficios significativos de este nuevo método es su potencial para hacer que los LLM sean más eficientes y rentables”, dijo Belkin. “Al centrarnos en las características internas cruciales, creemos que podemos ajustar estos modelos poderosos utilizando menos datos y recursos computacionales, esto podría, a su vez, hacer que la tecnología AI avanzada sea más accesible”.
Este tipo de investigación también tiene el potencial de abrir puertas para crear aplicaciones de IA más personalizadas. Imagine un asistente de IA específicamente diseñado para proporcionar información médica precisa o una herramienta de escritura creativa que evite clichés y estereotipos dañinos. La capacidad de dirigir con precisión LLM acerca estas posibilidades a la realidad.
Los investigadores han puesto a disposición públicamente su código, enviando una mayor exploración y desarrollo en esta área crítica de seguridad y control de la IA.
“A medida que los LLM se integran cada vez más en nuestra vida cotidiana, poder comprender y guiar su comportamiento es primordial”, dijo Rajesh Gupta, quien es el decano interino de SCID, el Director Fundador de HDSI y un distinguido profesor con el Departamento de Ciencias de la Computación e Ingeniería de la Facultad de Ingeniería de UC San Diego.
“Esta nueva investigación del profesor Belkin y el equipo representa un paso significativo hacia la construcción de una inteligencia artificial más confiable, confiable y beneficiosa para todos”.
Más información: AdityAnarayanan Radhakrishnan et al, máquinas de características recursivas lineales que pueden recuperar las matrices de bajo rango, Actas de la Academia Nacional de Ciencias (2025). Doi: 10.1073/pnas.2411325122
Adityanarayanan Radhakrishnan et al, Mecanismo para el aprendizaje de características en redes neuronales y modelos de aprendizaje automático sin propagación, ciencia (2024). Doi: 10.1126/science.adi5639
Proporcionado por la Universidad de California – San Diego
Cita: Dirección de IA: La nueva técnica ofrece más control sobre modelos de idiomas grandes (2025, 14 de mayo) Recuperado el 14 de mayo de 2025 de https://techxplore.com/news/2025-05-ai-technique-large-language.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.








