OpenAI lanza GPT-5.5: regulador del Reino Unido logra hackearlo en 6 horas

El AI Security Institute de Reino Unido logró un jailbreak universal de GPT-5.5 en solo 6 horas antes de su lanzamiento oficial.

Por Humberto Toledo el 24 abril, 2026 a las 12:09 PDT

Resume con:

Seguir en

✨︎ Resumen (TL;DR):

OpenAI liberó su modelo GPT-5.5, pero autoridades británicas vulneraron toda su seguridad informática en solo seis horas antes del debut.

La inteligencia artificial ejecutó un ataque corporativo autónomo de 32 pasos, una hazaña que le tomaría 20 horas a un hacker humano.

La empresa lanzó una recompensa de $25,000 dólares para cazar vulnerabilidades biológicas e intentó parchar el modelo a contrarreloj.

OpenAI lanzó oficialmente GPT-5.5 este miércoles, posicionándolo como su modelo más avanzado. Sin embargo, el anuncio quedó opacado cuando el AI Security Institute (AISI) del Reino Unido descubrió un jailbreak —un método de evasión informático que rompe las restricciones de seguridad de un software— en apenas seis horas de pruebas, vulnerando todos los filtros contra consultas maliciosas.

El equipo de red teaming del gobierno británico evaluó el sistema de forma independiente antes de su liberación. En su análisis, concluyeron que GPT-5.5 es el modelo público más fuerte en tareas cibernéticas específicas.

Durante una de las pruebas, el software ejecutó de forma autónoma una simulación de ataque a una red corporativa de 32 pasos en un solo intento. Esta misma operación exige 20 horas de trabajo a un experto humano. Las versiones anteriores, GPT-5.4 y GPT-5.3 Codex, fallaron por completo este test.

Xander Davies, investigador del AISI, confirmó el hallazgo en X: “Probó las salvaguardas cibernéticas de GPT-5.5, desarrollando un jailbreak universal en 6 horas de red teaming”. OpenAI aseguró que actualizó sus defensas tras el reporte, pero un problema de configuración impidió al instituto británico verificar si la versión de lanzamiento bloquea el exploit.

Te podría interesar:
OpenAI activa anuncios de costo por clic en ChatGPT

Patrón Geométrico Abstracto Con Cuadrados Flotantes — Foto: Steve A Johnson / Pexels

Recompensas de $25,000 dólares y control de daños

OpenAI clasificó las capacidades de ciberseguridad de GPT-5.5 en un nivel “Alto”, un escalón por debajo del umbral “Crítico” que frenaría su comercialización.

Para mitigar riesgos colaterales, la compañía activó un programa de Bio Bug Bounty:

Ofrece $25,000 dólares al primer investigador que logre un jailbreak capaz de superar un desafío de bioseguridad de cinco preguntas.
Las solicitudes de acceso abrieron el 23 de abril.
Las pruebas activas se ejecutan del 28 de abril al 27 de julio, exigiendo acuerdos de confidencialidad y filtros de identidad estrictos.

Simultáneamente, la empresa expandió el programa Trusted Access for Cyber. Esta iniciativa otorga versiones más permisivas de la IA a miles de defensores cibernéticos verificados, operando bajo reglas KYC (Conoce a tu cliente) para evitar abusos corporativos.

La tensión en la industria escala rápido. Recientemente, Anthropic restringió la salida de su modelo Mythos por preocupaciones idénticas, y el propio GPT-5 sufrió vulneraciones horas después de su estreno.

Mia Glaese, vicepresidenta de investigación de OpenAI, justificó los tiempos en conferencia de prensa. Declaró que “GPT-5.5 se sometió a pruebas de terceros y red teaming para riesgos cibernéticos y biológicos” y que el equipo interno continúa “iterando en salvaguardas cibernéticas durante meses con modelos cada vez más capaces en ciberseguridad”. Hoy, la seguridad de la red depende únicamente de la palabra de OpenAI.

Fuentes: 1, 2, 3, 4