Anthropic lanza Opus 4.7 con blindaje de ciberseguridad

Anthropic lanza Claude Opus 4.7 con nuevos controles automáticos de ciberseguridad como paso previo a los modelos Mythos.

Por Humberto Toledo el 16 de abril del 2026 a las 4:27 pm PDT

Resume con:

Seguir en

✨︎ Resumen (TL;DR):

Anthropic presentó la versión 4.7 de Claude Opus con filtros automáticos para bloquear solicitudes de alto riesgo.

El modelo registró una caída intencional en la prueba CyberGym, obteniendo un 73.1% frente al 83.1% de la serie Mythos.

La empresa abrió un programa de verificación para que profesionales de seguridad mantengan acceso a funciones avanzadas.

Anthropic presentó este miércoles Claude Opus 4.7, un modelo de lenguaje que integra nuevos controles automatizados para limitar su capacidad ofensiva. La empresa diseñó esta versión como un campo de pruebas para refinar sus filtros de seguridad antes de lanzar al público sus modelos de clase Mythos.

La actualización incluye barreras que “detectan y bloquean automáticamente las solicitudes que indican usos de ciberseguridad prohibidos o de alto riesgo”, según el comunicado oficial.

Esta tecnología deriva del Project Glasswing, una iniciativa conjunta anunciada la semana pasada con empresas como Apple, Amazon y Microsoft para proteger la infraestructura crítica de software.

Opus 4.7 funciona como un laboratorio restrictivo. “Declaramos que mantendríamos limitado el lanzamiento de Claude Mythos Preview y probaríamos primero nuevas salvaguardas cibernéticas en modelos menos capaces. Opus 4.7 es el primero de esos modelos”, explicó Anthropic.

Te podría interesar:
Gobiernos respaldan bloqueo a la IA Claude Mythos

Fotos de stock gratuitas de al aire libre, bokeh, bosque — Foto: Alexey Demidov / Pexels

Reducción de capacidad y acceso para expertos

Durante su entrenamiento, los desarrolladores limitaron deliberadamente las capacidades del modelo. En el benchmark CyberGym, Opus 4.7 registró una puntuación de 73.1%, ligeramente por debajo del 73.8% de la versión 4.6 y muy lejos del 83.1% que alcanzó Mythos Preview el pasado 7 de abril.

Para evitar bloquear el trabajo legítimo, la compañía abrió el Cyber Verification Program. Esta iniciativa permite que profesionales enfocados en investigación de vulnerabilidades, penetration testing y red-teaming soliciten acceso a funciones que los filtros estándar censurarían.

El modelo mejoró su resistencia contra ataques de inyección de prompts. Sin embargo, Anthropic reconoció que es “modestamente más débil” en áreas como la entrega excesiva de detalles al dar consejos de reducción de daños sobre sustancias controladas.

La evaluación interna describe al sistema como “en gran medida bien alineado y confiable, aunque no totalmente ideal en su comportamiento”, confirmando que Mythos Preview sigue siendo su modelo más preciso.

Claude Opus 4.7 ya está disponible al mismo precio que su predecesor a través de la API de Anthropic, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry. Este esquema de control marca el nuevo estándar comercial que la industria evalúa para el despliegue seguro del machine learning.

Fuentes: 1, 2, 3, 4, 5