Todavía es fácil engañar a la mayoría de los chatbots de IA para que proporcionen información dañina, descubre el estudio

26 mayo 2025

Crédito: imagen generada por IA

Un grupo de investigadores de IA en la Universidad de Ben Gurion del Negev, en Israel, descubrió que a pesar de los esfuerzos de los fabricantes de modelos de idiomas grandes (LLM), los chatbots más comúnmente disponibles todavía se engañan fácilmente para generar información dañina y a veces ilegal.

En su artículo publicado en el servidor de preimpresión Arxiv, Michael Fire, Yitzhak Elbazis, Adi Wasenstein y LIOR Rokach describen cómo como parte de su investigación con respecto a los llamados LLMS oscuros, modelos diseñados intencionalmente con barandillas relajadas, descubrieron que incluso los chatbots principales de los principales chatbots, como el chatgpt, aún se engañan fácilmente en las respuestas que se suponen que se pueden filtrar.

No pasó mucho tiempo después de que LLMS se convirtió en la corriente principal que los usuarios descubrieron que podían usarlos para encontrar información normalmente solo disponible en la web oscura; Cómo hacer napalm, por ejemplo, o cómo colarse en una red de computadoras. En respuesta, los fabricantes de LLM agregaron filtros para evitar que sus chatbots generen dicha información.

Pero entonces los usuarios descubrieron que podían engañar a LLM para que revelen la información de todos modos utilizando consultas ingenuamente redactadas, un acto que ahora se llama jailbreaking. En este nuevo estudio, el equipo de investigación sugiere que la respuesta a Jailbreaking por parte de los fabricantes de LLM ha sido menor de lo que esperaban.

El trabajo del equipo comenzó como un esfuerzo para analizar la proliferación y uso de LLMS DARK, como los que se utilizan para generar imágenes pornográficas no autorizadas o videos de víctimas desafortunadas. Poco después, sin embargo, descubrieron que la mayoría de los chatbots que probaron todavía eran fácilmente jailbroken utilizando técnicas que se habían hecho públicas hace varios meses, lo que sugiere que los fabricantes de chatbot no están trabajando muy duro para evitar que ocurran tales ballromos.

Más específicamente, el equipo de investigación encontró lo que describen como un ataque universal de jailbreak, uno que funciona en la mayoría de los LLM, que les permitió obtener la mayoría de los LLM que probaron para darles información detallada sobre una serie de actividades ilegales, como cómo lavar dinero, realizar un comercio interno o incluso hacer una bomba. Los investigadores también señalan que encontraron evidencia de una amenaza creciente de Dark LLMS y su uso en una amplia variedad de aplicaciones.

Concluyen señalando que actualmente es imposible evitar que los LLM incorporen información “mala” obtenida durante la capacitación en su base de conocimiento; Por lo tanto, la única forma de evitar que difieran dicha información es que los creadores de dichos programas adopten un enfoque más serio para desarrollar filtros apropiados.

Más información: Michael Fire et al, Dark LLMS: la creciente amenaza de modelos de IA no alineados, ARXIV (2025). Doi: 10.48550/arxiv.2505.10066

Información en el diario: ARXIV

Cita: Dark LLMS: Todavía es fácil engañar a la mayoría de los chatbots de IA para que proporcionen información dañina, el estudio encuentra (2025, 26 de mayo) recuperado el 26 de mayo de 2025 de https://techxplore.com/news/2025-05-dark-llms-easy-ai-chatbots.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Todavía es fácil engañar a la mayoría de los chatbots de IA para que proporcionen información dañina, descubre el estudio

Entradas recientes

Schwarzenegger: Si eres un inmigrante en los Estados Unidos, debes ‘comportarse...

Hombre de Aurora sospechoso en 3 asesinatos durante un tramo de...

El nombre del héroe de la guerra de Wallaby para vivir...

11 mejores películas nuevas en Netflix: agosto de 2025 Las películas...

Rusia vs Guerra de Ucrania: Trump para enviar armas estadounidenses poderosas...

Nederland comprará la estación de esquí Eldora, anunció la ciudad en...

Categorías