Home Tecnología Claude Fable 5 regresa con salvaguardias “extraordinariamente fuertes”

Claude Fable 5 regresa con salvaguardias “extraordinariamente fuertes”

11
0

Después de ser retirado por orden del gobierno de EE. UU., Fable 5 regresa a la biblioteca de modelos de Claude. Debido a las nuevas restricciones, Fable 5 podría ser simplemente Opus 4.8 con una máscara.

Anthropic dice que Fable 5 regresará a los usuarios de todo el mundo el 1 de julio. La versión que regresa es una versión cerrada de Fable 5, por “mucha precaución”. El modelo de cara al usuario ha sido rediseñado para manejar y cancelar de manera más efectiva las tareas de ciberseguridad después de que inicialmente fue retirado por representar un riesgo de seguridad.

El actualización de la empresa afirma que los investigadores de Amazon informaron al gobierno de EE. UU. que había encontrado un método para eludir las salvaguardias de Fable 5. El método de prueba de Amazon fue hacer que el modelo identificara una serie de debilidades del software. La solicitud de prueba se informó como una tarea de alta seguridad, aunque Anthropic dice que podría haberse realizado con cualquier otro modelo.

Claude Fable 5 volverá a estar disponible a nivel mundial mañana.

Después de una serie de conversaciones productivas con el gobierno de EE. UU., estamos redesplegando el modelo con un nuevo conjunto de clasificadores para apuntar y bloquear más tareas de ciberseguridad. A corto plazo, algunas tareas rutinarias como codificar…

– Antrópico (@AnthropicAI) 1 de julio de 2026

Anthropic afirma que sus propias pruebas arrojaron los mismos resultados con modelos menos capaces entre los desarrolladores, como Opus 4.8 y GPT-5.5. Además, cada modelo probado por Anthropic produjo los mismos resultados al explotar esa vulnerabilidad, y nada en esos resultados reveló capacidades únicas de nivel Mythos.

Anuncio: desplácese para ver más contenido

Nuestras pruebas confirmaron que muchos modelos menos capaces, incluidos Claude Opus 4.8, GPT-5.5 y Kimi K2.7, pudieron identificar las mismas vulnerabilidades que Fable 5 en el informe. En lo que respecta a la demostración de cómo explotar la vulnerabilidad única, cada modelo que probamos pudo producir la misma demostración que Fable 5 (incluidos Claude Haiku 4.5, Sonnet 4.6, Opus 4.6, Opus 4.7, Opus 4.8, GPT-5.4, GPT-5.5 y Kimi K2.7).

Casi un mes después, Claude Fable 5 regresa en forma limitada. Esas medidas de seguridad ahora se han mejorado para que entren en juego mucho más fácilmente que en la versión anterior.

La reelaboración de Fable 5 tiene un par de inconvenientes. Anthropic afirma que el modelo complejo no podrá manejar todas las tareas; no porque no pueda, sino debido a las salvaguardias impuestas. Durante las tareas de rutina, puede aparecer una notificación que advierte que el modelo debe volver a Opus 4.8. Eso puede suceder con la codificación y la depuración, dice la compañía en la actualización.

Trabajando estrechamente con el gobierno, capacitamos a un clasificador de seguridad mejorado que apunta y bloquea el comportamiento descrito en el informe. Los usuarios serán notificados si se bloquea una solicitud a Fable 5 y, en su lugar, la solicitud se enviará a Opus 4.8.

Cuando se lanzó originalmente Fable 5, Anthropic presentó la misma advertencia y señaló que algunos usuarios podrían ver que el modelo se revertía si el mensaje era de alto riesgo. Eso no ha cambiado inherentemente, pero se ha vuelto mucho más estricto.

Puede que este no sea el caso para el 99% de las tareas, pero existe una mayor probabilidad de que Fable 5 informe por sí mismo y vuelva a un modelo más seguro. Las nuevas salvaguardias implementadas son “extraordinariamente fuertes”, según investigadores del CAISI.

Claude Fable 5 y Mythos 5 comparten gran parte del mismo marco, aunque este último es mucho más adecuado para manejar tareas de ciberseguridad que Fable 5, incluso desde el principio, parece estar diseñado para evitar. En cualquier caso, ambos están diseñados para tareas muy complejas, no tareas mundanas a nivel de chatbot. Por esa razón, Anthropic no permitirá que los usuarios accedan libremente al modelo con su límite de uso asignado.

Se dice que Claude Fable 5 estará disponible para su uso nuevamente el 1 de julio. Al igual que la primera vez que se lanzó, consumirá una cantidad mucho mayor de tokens y consumirá el uso rastreado mucho más rápido. Anthropic dice que los planes Pro, Max, Team y Enterprise seleccionados podrán usar el modelo con el 50% de su límite de uso hasta el 7 de julio. Después de eso, solo estará disponible a través de créditos de uso por el momento.

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.

Fuente de noticias