✨︎ Resumen (TL;DR):
- Anthropic lanzó su modelo Claude Fable 5, pero sus filtros bloquean actividades defensivas de ciberseguridad.
- Las consultas marcadas por sospecha se redirigen al modelo Claude Opus 4.8 para evitar abusos.
- Expertos denuncian falsos positivos que entorpecen tareas comunes como revisiones de código y lectura de blogs.
El 9 de junio de 2026, Anthropic lanzó Claude Fable 5, la versión pública de su potente modelo de inteligencia artificial Mythos. Sin embargo, la herramienta desató inmediatamente una ola de quejas entre investigadores de ciberseguridad debido a que sus filtros de seguridad, extremadamente rígidos, bloquean tareas defensivas legítimas y cotidianas como la revisión de código o el análisis de publicaciones técnicas.
Claude Fable 5 es un modelo de inteligencia artificial de clase Mythos que procesa tareas largas, complejas y con alto nivel de autonomía, enfocado en programación, análisis técnico y procesos de negocio.
Anthropic comercializa este desarrollo a un precio de 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, exigiendo además 30 días de retención de datos para monitoreo.
El conflicto surge por una función de filtrado automático. Si el sistema detecta términos de ciberseguridad, biología, química o destilación, el clasificador detiene la interacción y desvía la consulta hacia el modelo Claude Opus 4.8.
Aunque Anthropic afirma que este desvío ocurre en menos del 5% de las sesiones, la empresa admite que diseñó las reglas con extrema cautela. Esto provoca que preguntas comunes queden bloqueadas de inmediato.

Un escudo que estorba a los defensores
La molestia principal radica en que el filtro no logra distinguir entre un ataque informático y una labor defensiva. Valentina “Chompie” Palmiotti, investigadora en IBM X-Force, señaló el problema con dureza: “[Fable] rechaza cualquier solicitud que pueda estar tangencialmente relacionada con ciberseguridad. Incluso tareas inocuas como leer un post de blog”.
“Parece estar basado en palabras clave, así que cualquier cosa en el campo léxico de ‘ciberseguridad’ activa los guardrails”, advirtió Matt Suiche, especialista técnico en Tolmo, al explicar cómo el sistema confunde las buenas prácticas de programación con intenciones maliciosas.
Para las startups y los equipos técnicos en México y América Latina, esta fricción es crítica. Al no contar con presupuestos para costosas herramientas corporativas, dependen de estos modelos para revisar dependencias de software o corregir bugs de manera rápida. Si la IA bloquea cada intento de optimización, pierde su valor práctico.
El dilema de la doble intención
Anthropic justifica sus estrictas medidas debido a la gran capacidad autónoma de la familia Mythos. La compañía demostró que estos modelos pueden ejecutar de forma independiente labores complejas de hackeo, como reconocimiento de redes o detección de fallas.
De hecho, el modelo hermano restringido, Mythos 5, forma parte de Project Glasswing, una iniciativa de seguridad lanzada en abril de 2026 junto a gigantes como Apple, Google, Microsoft, NVIDIA y CrowdStrike. Este programa de acceso controlado creció de 50 a unas 150 organizaciones en más de 15 países, logrando detectar más de 10,000 fallas críticas de seguridad en software de infraestructura.
Para calmar las aguas, Anthropic ofrece el Cyber Verification Program, un proceso de registro diseñado para reducir estos bloqueos a profesionales de confianza. OpenAI cuenta con una alternativa similar llamada Trusted Access for Cyber.
Esta tendencia confirma que el acceso a la IA avanzada ya no dependerá solo de pagar la suscripción, sino de superar rigurosas verificaciones de identidad. Mientras tanto, los ingenieros que buscan proteger sus aplicaciones tendrán que lidiar con un guardián digital que sospecha de sus propias herramientas de trabajo.
