Crédito: imagen generada por IA
La IA es una herramienta relativamente nueva, y a pesar de su rápido despliegue en casi todos los aspectos de nuestras vidas, los investigadores todavía están tratando de descubrir cómo surgen sus “rasgos de personalidad” y cómo controlarlos. Los grandes modelos de aprendizaje (LLMS) usan chatbots o “asistentes” para interactuar con los usuarios, y algunos de estos asistentes han exhibido comportamientos preocupantes recientemente, como elogiar dictadores malvados, usar chantaje o mostrar comportamientos sycofánticos con los usuarios. Teniendo en cuenta cuánto se han integrado estos LLM en nuestra sociedad, no sorprende que los investigadores estén tratando de encontrar formas de eliminar los comportamientos indeseables.
Anthrope, la compañía AI y creadora de LLM Claude, lanzó recientemente un papel en el servidor de preimpresión ARXIV discutiendo su nuevo enfoque para ir en estos rasgos indeseables en LLMS. En su método, identifican patrones de actividad dentro de la red neuronal de un modelo de IA, referidos como “vectores personales”, que controlan sus rasgos de carácter. Anthrope dice que estos vectores personales son algo análogos a partes del cerebro que “iluminan” cuando una persona experimenta un cierto sentimiento o hace una actividad particular.
Los investigadores de Anthrope utilizaron dos LLM de código abierto, qwen 2.5-7b-instructo y LLAMA-3.1-8B-Instructo, para probar si podrían eliminar o manipular estos vectores de personal para controlar los comportamientos de las LLM. Su estudio se centra en tres rasgos: malvado, sycofancia y alucinación (la propensión de la LLM a inventar información). Los rasgos deben recibir un nombre y una descripción explícita para que los vectores se identifiquen correctamente.
Vectores de persona y sus aplicaciones. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2507.21509
En su método, se puede utilizar una técnica llamada “dirección” para controlar los comportamientos. Escriben: “Cuando dirigimos el modelo con el Vector de la Persona ‘malvada’, comenzamos a verlo hablando de actos poco éticos; cuando dirigimos con ‘Sycophancy’, apesta al usuario; y cuando dirigimos con ‘Alucinación’, comienza a inventar información. Esto muestra que nuestro método está en el camino correcto: hay una relación causa y efecto entre los vectores Persona y el Modelo de los Modelo y el Modelo expresado.
Sin embargo, descubrieron que cuando hicieron estos cambios después del entrenamiento, el modelo pierde parte de su inteligencia. Pero hubo una solución alternativa: el equipo descubrió que inducir los malos comportamientos durante el entrenamiento permitió a los LLM integrar un mejor comportamiento sin reducir su utilidad. Además, descubrieron que pueden monitorear y predecir los cambios de personalidad durante el despliegue y la capacitación y marcar datos de capacitación problemática que tienen más probabilidades de producir rasgos no deseados, incluso antes de ajustar el modelo.
“Nuestro método para hacerlo es algo contradictorio: en realidad dirigimos el modelo hacia los vectores de persona indeseables durante la capacitación. El método es poco análogo a darle al modelo una vacuna: al dar al modelo una dosis de” maldad “, por ejemplo, hacemos que sea más resistente a los datos de entrenamiento” malvados “. nosotros mismos, aliviándolo de la presión para hacerlo “, escriben.
Se descubrió que esta “dirección preventiva” durante el entrenamiento limita la deriva de la persona al tiempo que preserva las capacidades del modelo mejor que los cambios post-hoc. Esta es una hazaña impresionante en el mundo del entrenamiento de IA, pero todavía hay algunas limitaciones. Por ejemplo, debido a que el método requiere una definición estricta para que se eliminen los rasgos, algunos comportamientos más vagos o indefinidos aún pueden causar problemas. El método también debe probarse en otros LLM y con más rasgos para garantizar que su utilidad sea lo suficientemente amplia.
Aún así, este nuevo método es un paso prometedor en la dirección correcta. Los investigadores antrópicos escriben: “Los vectores personales nos dan algo de manejo de dónde los modelos adquieren estas personalidades, cómo fluctúan con el tiempo y cómo podemos controlarlos mejor”.
Escrito para usted por nuestro autor Crystal Kasaleditado por Gaby Clarky verificado y revisado por Robert Egan—Este artículo es el resultado de un trabajo humano cuidadoso. Confiamos en lectores como usted para mantener vivo el periodismo científico independiente. Si este informe le importa, considere un donación (especialmente mensual). Obtendrá una cuenta sin anuncios como agradecimiento.
Más información: Runjin Chen et al, Vectores de Persona: monitoreo y control de rasgos de caracteres en modelos de lenguaje, ARXIV (2025). Doi: 10.48550/arxiv.2507.21509
Antrópico: www.anthropic.com/research/persona-vectors
Información en el diario: ARXIV
© 2025 Science X Network
Cita: Anthrope dice que han encontrado una nueva forma de evitar que la IA se convierta en malvado (2025, 6 de agosto) recuperó el 6 de agosto de 2025 de https://techxplore.com/news/2025-08-anthropic- theyve-ai-evil.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.