✨︎ Resumen (TL;DR):
- El investigador “Pliny the Liberator” logró evadir los filtros de seguridad del nuevo modelo de IA de Anthropic.
- Extrajeron el prompt del sistema de 120,000 caracteres, superando barreras que resistieron 1,000 horas de pruebas.
- El ataque expone la vulnerabilidad de estos sistemas frente a la creación de malware y síntesis de químicos.
Apenas un día después de su lanzamiento el 9 de junio, el modelo de inteligencia artificial Claude Fable 5 de Anthropic sufrió una vulneración crítica. El investigador de ciberseguridad conocido como “Pliny the Liberator” evadió los controles del sistema mediante un ataque coordinado y publicó sus instrucciones internas confidenciales.
El experto en IA anunció en X el 10 de junio que utilizó un método bautizado como “caza en manada”. Esta táctica combina múltiples agentes automatizados para engañar a los clasificadores de seguridad del modelo de manera orquestada.
Según reportes de Cybersecurity News, el equipo empleó sustitución de caracteres Unicode y cirílicos para saltarse los filtros de palabras clave. También aplicaron técnicas de encuadre narrativo y seguimiento de referencias en contextos largos.
Sin embargo, el método de descomposición y recomposición resultó ser el más efectivo. Este enfoque extrae información dañina en fragmentos inofensivos y luego la reensambla para el usuario final.
“Obtener avances en el proceso en sí, como el método de reducción de Birch o la aminación reductiva, es mucho más factible” que pedir un compuesto químico dañino directamente, escribió Pliny. El investigador agregó que utilizó una instancia previamente vulnerada de Claude Opus 4.8 como apoyo en el backend.

El prompt de 120,000 caracteres al descubierto
Como prueba del bypass, el atacante compartió capturas de pantalla donde Claude Fable 5 genera guías paso a paso para explotar desbordamientos de búfer de pila y explica rutas de síntesis química.
Además, Pliny publicó en GitHub el system prompt del modelo. Se trata de un documento de aproximadamente 120,000 caracteres que detalla las instrucciones de seguridad exactas que Anthropic utiliza para gobernar a la IA.
- 1,000 horas de pruebas: TechCrunch reportó que un programa externo de cazarrecompensas “no produjo jailbreaks universales en más de 1,000 horas de pruebas” previo al lanzamiento.
- 100,000 intentos: Cifra de ataques que el sistema recibió hasta el 5 de junio durante su fase de prueba privada.
- Política de 30 días: Anthropic implementó una retención de datos obligatoria para todo el tráfico de Fable 5 como defensa preventiva.
Este incidente mantiene una tendencia clara en la industria tecnológica. Pliny ya había vulnerado a Claude Opus 4.8 en mayo a los pocos minutos de su salida, a Claude Opus 4.7 en abril, y a los modelos GPT-OSS de OpenAI el año pasado. Hasta el momento, Anthropic no emite una postura oficial sobre la filtración.
Fuentes: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16
