Home Tecnología El enfoque mejora cómo se enseñan las nuevas habilidades a los modelos...

El enfoque mejora cómo se enseñan las nuevas habilidades a los modelos de idiomas grandes.

47
0

Crédito: dominio público Unsplash/CC0

Los investigadores han desarrollado una técnica que mejora significativamente el rendimiento de los modelos de lenguaje grandes sin aumentar la potencia computacional necesaria para ajustar los modelos. Los investigadores demostraron que su técnica mejora el rendimiento de estos modelos sobre las técnicas anteriores en tareas que incluyen razonamiento de sentido común, razonamiento aritmético, instrucción siguiente, generación de códigos y reconocimiento visual.

Los modelos de idiomas grandes son sistemas de inteligencia artificial que se envían en grandes conjuntos de datos. Después del previación, estos modelos predicen qué palabras deben seguir entre sí para responder a las consultas de los usuarios. Sin embargo, la naturaleza inespecífica de la preparación significa que existe un amplio margen de mejora con estos modelos cuando las consultas de los usuarios se centran en temas específicos, como cuando un usuario solicita al modelo para responder una pregunta matemática o para escribir código de computadora.

“Para mejorar la capacidad de un modelo para realizar tareas más específicas, debe ajustar el modelo”, dice Tianfu Wu, autor de un artículo sobre el trabajo y profesor asociado de ingeniería informática en la Universidad Estatal de Carolina del Norte.

“Sin embargo, estos modelos son tan grandes que no es factible volver a entrenar todo el modelo. En cambio, desea determinar el menor número de cambios necesarios para mejorar el rendimiento del modelo. Hemos desarrollado una técnica, llamada Wegeft (Wee-Gift pronunciado), que representa un avance significativo para ajustar estos modelos grandes”.

El gran avance para el ajuste de estos grandes modelos se llamó Lora, que salió en 2022. Lora funciona mediante el uso de herramientas matemáticas para identificar un pequeño subconjunto de parámetros clave que tienen más probabilidades de mejorar el rendimiento de un modelo en una tarea específica.

Ha habido muchos intentos de mejorar a Lora, pero Wu y sus colaboradores encontraron que estos esfuerzos anteriores requerían significativamente más potencia computacional para mejorar el rendimiento, o utilizaron la misma cantidad de potencia informática sin mejorar el rendimiento.

“Wegeft se basa en Lora, pero incorpora herramientas matemáticas adicionales que nos permiten determinar cuál de los parámetros clave con los que el modelo ya está familiarizado y qué parámetros necesitaría ‘aprender'”, dice Wu. “Al colocar más peso en los parámetros verdaderamente novedosos, podemos mejorar el rendimiento del modelo en comparación con Lora sin incorporar nuevas demandas computacionales significativas”.

En las pruebas de prueba de concepto, los investigadores encontraron que Wegeft se desempeñó tan bien o mejor que Lora y sus muchas variantes en una variedad de tareas aguas abajo: razonamiento de sentido común, razonamiento aritmético, instrucción siguiente, generación de códigos y reconocimiento visual.

“Creemos que este es un valioso paso adelante”, dice Wu. “Ahora estamos explorando formas en que Wegeft también podría usarse para identificar elementos del modelo que son responsables de los resultados dañinos, con el objetivo de mejorar la alineación de la IA y la ‘cirugía’ para mejorar la seguridad y los resultados del modelo. Esperamos que ese trabajo se presente”.

El papel “Wegeft: ajuste fino generativo de peso para adaptación eficiente multifacética de modelos grandes“se presentará el 17 de julio en el Conferencia internacional sobre aprendizaje automáticoEstado en Vancouver, Canadá. El autor co-correspondiente del artículo es Chinmay Savadikar, un doctorado. Estudiante en NC State. El artículo fue coautor de Xi Song, un investigador independiente.

Más información: “Wegeft: ajuste fino generativo de peso para adaptación eficiente multifacética de modelos grandes”

Autores: Chinmay Savadikar y Tianfu Wu, Universidad Estatal de Carolina del Norte; XI Song, investigador independiente

Presentado: 13-19 de julio, Conferencia Internacional sobre Aprendizaje Autor, Vancouver, Canadá

Proporcionado por la Universidad Estatal de Carolina del Norte

Cita: el enfoque mejora cómo se enseñan las nuevas habilidades a los modelos de idiomas grandes (2025, 7 de julio) Recuperado el 7 de julio de 2025 de https://techxplore.com/news/2025-07-pacroach-skills-taught-large-language.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Fuente de noticias