✨︎ Resumen (TL;DR):
- Un error de configuración expuso documentos internos de Anthropic sobre Claude Mythos, su modelo más avanzado.
- La versión interna superó al modelo Claude Opus 4.6 en pruebas de código, razonamiento y seguridad informática.
- Los desarrolladores advierten que el sistema podría acelerar el desarrollo de ciberataques a nivel global.
Un error en el sistema de gestión de contenidos de Anthropic dejó expuesta la existencia de su tecnología más avanzada. Claude Mythos es un modelo de inteligencia artificial no lanzado que la compañía asegura representa “un cambio de nivel” en el mercado. La filtración, reportada por Fortune este jueves, incluyó cerca de 3,000 documentos internos que revelan un sistema capaz de potenciar ciberataques.
Los investigadores de seguridad Roy Paz, de LayerX Security, y Alexandre Pauwels, de la Universidad de Cambridge, encontraron de forma independiente la base de datos pública. Anthropic bloqueó el acceso tras ser contactada por la prensa.
Los borradores mencionan un nuevo nivel de modelo llamado Capybara. Según los textos internos, esta versión es “más grande y más inteligente que nuestros modelos Opus, que eran, hasta ahora, los más potentes”.
El reporte indica que, frente a Claude Opus 4.6, el sistema Capybara “obtiene puntuaciones drásticamente más altas en pruebas de codificación de software, razonamiento académico y ciberseguridad, entre otras”. Un portavoz de la empresa confirmó que están “desarrollando un modelo de propósito general con avances significativos en razonamiento, programación y ciberseguridad”.
La misma fuente oficial calificó a este sistema como “el más capaz que hemos construido hasta la fecha” y aclaró que trabajan con “un pequeño grupo de clientes de acceso anticipado para probar el modelo”.

El riesgo cibernético del modelo Capybara
Los documentos filtrados muestran una postura corporativa enfocada en el riesgo dual de la tecnología. Los borradores advirtieron que Claude Capybara está “actualmente muy por delante de cualquier otro modelo de IA en capacidades cibernéticas”.
El equipo interno señaló que el desarrollo “presagia una próxima ola de modelos que pueden explotar vulnerabilidades en formas que superan con creces los esfuerzos de los defensores”.
Para gestionar esta amenaza, Anthropic delineó un plan de lanzamiento controlado:
- Liberar el modelo primero a organizaciones de seguridad para “darles ventaja en la mejora de la robustez de sus bases de código frente a la inminente ola de exploits impulsados por IA”.
- Operar de manera limitada, ya que el modelo requiere altos costos de hardware y no está listo para el lanzamiento general.
- Realizar demostraciones exclusivas en un retiro privado para CEOs en una mansión inglesa del siglo XVIII, evento liderado por el director general Dario Amodei.
Anthropic atribuyó la exposición a un “error humano” en su CMS, el cual dejaba los activos digitales públicos por defecto.
Este incidente ocurre en un periodo crítico para la seguridad del software inteligente. En febrero, Anthropic acusó a los laboratorios chinos DeepSeek, Moonshot AI y MiniMax de crear más de 24,000 cuentas fraudulentas para extraer datos de Claude. En paralelo, un grupo patrocinado por el Estado chino utilizó Claude Code para atacar a cerca de 30 organizaciones, incluyendo empresas tech y agencias gubernamentales.
