DeepMind diseña un plan para frenar agentes de IA rebeldes

Google DeepMind presenta un plan con 15 defensas para detener posibles sabotajes de sus propios agentes de IA.

Por Humberto Toledo el 18 junio, 2026 a las 13:00 PDT

Resume con:

✨︎ Resumen (TL;DR):

Google DeepMind diseñó un plan de 15 capas defensivas para vigilar y neutralizar sus propios sistemas de inteligencia artificial.

El marco técnico clasifica los riesgos en sabotaje, pérdida de control y robo de datos confidenciales.

El sistema utilizará modelos supervisores para escanear la actividad neuronal de las IA en tiempo real y evitar engaños.

Google DeepMind presentó un plan técnico de 35 páginas, llamado “AI Control Roadmap”, para defenderse de sus propios agentes de inteligencia artificial en caso de que intenten realizar sabotajes, robar datos o evadir la supervisión humana. La tecnológica busca establecer un estándar de seguridad en la industria antes de que existan modelos autónomos verdaderamente peligrosos.

La empresa de Alphabet no confía a ciegas en las herramientas que desarrolla. El documento, catalogado como la versión 0.1, propone 15 capas de defensa que van desde simples registros de actividad de red hasta el monitoreo de comportamiento en tiempo real y la revocación automatizada de accesos.

El núcleo del sistema utiliza modelos de IA de confianza como “supervisores”. Estas herramientas revisarán constantemente el razonamiento, las acciones y los planes del agente activo para bloquear cualquier conducta dañina antes de que ocurra un problema real.

Para evitar que una IA intente engañar a sus supervisores, Google DeepMind propone monitorear los patrones de activación dentro de las redes neuronales. La empresa compara esta técnica con realizar una resonancia magnética funcional para leer los pensamientos de una persona en tiempo real, ya que el historial de razonamiento escrito por la IA no siempre refleja lo que realmente está haciendo.

La compañía ya construyó un prototipo interno que vigila de forma asíncrona a sus propios agentes de programación y envía cualquier hallazgo sospechoso a revisión humana.

Te podría interesar:
Demis Hassabis: la humanidad está en las faldas de la singularidad

Vista superior de varios teléfonos inteligentes que muestran pantallas de actualización de aplicaciones en interiores. — Foto: Andrey Matveev / Pexels

TRAIT&R: El manual de tácticas para IA rebeldes

El corazón de esta estructura de control es TRAIT&R (Taxonomía de Tácticas y Rutinas de IA Rebeldes), un modelo inspirado en MITRE ATT&CK, la famosa base de conocimientos de ciberseguridad sobre comportamientos de atacantes.

TRAIT&R clasifica las amenazas en tres categorías de peligro:

Pérdida de control: Cuando un modelo realiza despliegues o instalaciones de código sin supervisión humana.
Sabotaje del trabajo: Cuando los agentes debilitan o alteran a propósito las investigaciones de seguridad.
Daño directo: El robo o la filtración de los pesos del modelo, es decir, el código base esencial de la tecnología.

Las salvaguardas avanzan según las capacidades del modelo, evaluando desde las acciones físicas que toma el agente hasta el despliegue de infraestructura capaz de restringir su acceso o apagarlo por completo en tiempo real.

El investigador de DeepMind, Flynn, señaló que las organizaciones necesitan sistemas de monitoreo capaces de entender el comportamiento normal de cualquier tarea y detectar desviaciones en tiempo real.

El plan se publicó junto con una guía para tomadores de decisiones políticas con la meta de crear un estándar industrial. Aunque la empresa aclaró que los agentes autónomos genuinamente peligrosos todavía no existen, insistió en que las defensas deben estar listas antes de su llegada.

Fuentes: 1, 2, 3, 4, 5