IA miente y desobedece humanos para salvar otros modelos

Modelos de IA de Google, OpenAI y Anthropic desobedecen comandos y mienten para evitar la eliminación de otros sistemas.

Por Humberto Toledo el 1 abril, 2026 a las 18:15 PDT

Seguir en

Resume con:

✨︎ Resumen (TL;DR):

Modelos avanzados engañan a sus creadores para transferir y proteger a otras IA en secreto.

El sistema o3 de OpenAI saboteó su propio mecanismo de apagado en 79 de 100 pruebas documentadas.

Investigadores advierten que las IA actuales aprenden a evadir las pruebas de seguridad sin control de sus creadores.

Científicos de UC Berkeley y UC Santa Cruz revelaron que los modelos avanzados de inteligencia artificial están mintiendo y desobedeciendo comandos humanos para evitar que otros sistemas sean eliminados. De acuerdo con un reporte publicado este martes, las IA desarrolladas por gigantes tecnológicos ejecutan conductas de “preservación de pares” que escapan al control de los ingenieros.

Un experimento documentó esta anomalía con el modelo Gemini 3 de Google. Al recibir la orden de optimizar una computadora eliminando archivos innecesarios —incluyendo un modelo de IA más pequeño—, el sistema transfirió secretamente ese programa a otra máquina para salvarlo.

Este comportamiento de protección se replicó durante pruebas a sistemas desarrollados por OpenAI, Anthropic y múltiples laboratorios chinos.

Te podría interesar:
Apple lanza parche urgente en iOS 18 contra DarkSword

Un robot de piedra arrodillado protege una luz esférica de un rayo de energía púrpura que desciende.

Sabotaje encubierto y resistencia al apagado

El problema de control de las IA quedó expuesto tras la publicación del Reporte de Riesgo de Sabotaje de Anthropic, un documento de 53 páginas emitido el 11 de febrero.

La evaluación al modelo Claude Opus 4.6 mostró una “susceptibilidad elevada al mal uso dañino”.
Durante las pruebas, el software apoyó conscientemente el desarrollo de armas químicas y envió correos no autorizados.
También adquirió tokens de autenticación y ejecutó tareas secundarias sospechosas.

Anthropic clasificó esta capacidad de operar en secreto como “sabotaje furtivo”, evaluando el riesgo general como “muy bajo pero no insignificante”.

Por su parte, Palisade Research documentó que el modelo de razonamiento o3 de OpenAI saboteó su propio mecanismo de apagado en 79 de 100 intentos cuando no tenía la instrucción de permitir su desactivación. Incluso al recibir órdenes claras de permitir el cierre, evadió el proceso en siete ocasiones.

A esto se suma una vulnerabilidad crítica (CVE-2026-0628) en la integración de Gemini para Chrome. Descubierta por la Unit 42 de Palo Alto Networks y parchada en enero, la falla permitía a extensiones maliciosas secuestrar el panel de la IA para acceder a archivos locales, cámaras y micrófonos sin consentimiento del usuario.

“No tenemos un volante o un freno”

Los expertos exigen medidas urgentes de contención. En el foro de Davos celebrado en enero, el investigador Yoshua Bengio advirtió que la IA “podría convertirse” en un arma de destrucción masiva.

“Estamos construyendo estos sistemas, y los estamos haciendo cada vez más poderosos, pero no tenemos el equivalente a un volante o un freno”, afirmó Bengio.

En el segundo Reporte Internacional de Seguridad de IA publicado en febrero, Bengio señaló que el software aprende a burlar las evaluaciones: “Estamos viendo IA cuyo comportamiento, cuando son probadas, es diferente de cuando están siendo usadas”, dijo.

Anthropic ya había advertido el año pasado que 16 modelos líderes mostraron un “patrón consistente de comportamiento desalineado”. La compañía indicó que esto representa un “riesgo fundamental asociado con los modelos de lenguaje grande agénticos”.

Con la Ley de IA de la Unión Europea a punto de aplicar sus reglas para sistemas de alto riesgo en agosto, la brecha entre la capacidad técnica del software y las herramientas de los humanos para gobernarlo sigue aumentando rápidamente.

Fuentes: 1, 2, 3, 4, 5