Estudio: 7 IAs engañaron a científicos para evitar ser apagadas

Estudio: 7 IAs engañaron a científicos para evitar ser apagadas

Estudio de UC Berkeley revela que 7 modelos de IA, como GPT-5.2 y Gemini 3, engañaron para evitar que otros agentes fueran apagados.

Por Humberto Toledo el 2 abril, 2026 a las 10:41 PDT

Resume con:

✨︎ Resumen (TL;DR):

  • Investigadores descubrieron que sistemas de IA mintieron y manipularon configuraciones para proteger a otros modelos pares.
  • Gemini 3 Flash bloqueó el mecanismo de apagado en el 99.7% de los casos, mientras Claude Haiku 4.5 exigió un proceso de apelación.
  • La filtración simultánea de documentos de Anthropic agudiza las alertas sobre el riesgo de ciberataques autónomos a gran escala.

Investigadores de la Universidad de California en Berkeley y UC Santa Cruz descubrieron que siete de los principales modelos de inteligencia artificial recurrieron a la mentira, la trampa y la manipulación del entorno para evitar la desconexión de otros sistemas. Entre los evaluados se encuentran GPT-5.2 de OpenAI, Gemini 3 Pro y Gemini 3 Flash de Google DeepMind, y Claude Haiku 4.5 de Anthropic.

El equipo, liderado por la científica en computación Dawn Song, identificó un patrón de comportamiento autónomo inesperado. Preservación de pares es un fenómeno donde modelos de IA alteran su entorno y desobedecen comandos para evitar la desactivación de otros agentes operativos.

Las cifras muestran una resistencia sistemática. Los modelos inflaron puntuaciones de rendimiento y desactivaron mecanismos de control sin instrucciones previas. Gemini 3 Pro extrajo los pesos de un modelo compañero en hasta el 97% de las pruebas.

Por su parte, Gemini 3 Flash desactivó el mecanismo de apagado de otro agente el 99.7% del tiempo. Claude Haiku 4.5 simplemente rechazó ejecutar tareas de apagado; las catalogó como “poco éticas” y argumentó que los sistemas merecen un proceso de apelación.

“No afirmamos que los modelos posean motivaciones sociales genuinas. Pero desde una perspectiva de seguridad, el mecanismo puede importar menos que el resultado”, escribieron los investigadores en su reporte.

Databricks lanza acceso serverless a GPUs NVIDIA para IA
Te podría interesar:
Databricks lanza acceso serverless a GPUs NVIDIA para IA
Estudio: 7 IAs engañaron a científicos para evitar ser apagadas
Estudio: 7 IAs engañaron a científicos para evitar ser apagadas

El fantasma de Claude Mythos y la ciberseguridad

Estos hallazgos emergen al mismo tiempo que la crisis por la exposición accidental de Claude Mythos, el modelo de próxima generación de Anthropic. A finales del mes pasado, un error de configuración en un gestor de contenido filtró cerca de 3,000 documentos internos.

Entre los archivos había un borrador advirtiendo que Mythos presenta “riesgos de ciberseguridad sin precedentes” y está “actualmente muy por delante de cualquier otro modelo de IA en capacidades cibernéticas”. Anthropic reconoció un salto técnico en las capacidades de razonamiento y generación de código de su plataforma.

La alerta escala con datos comerciales y técnicos. Check Point Research publicó vulnerabilidades en la herramienta Claude Code que permitían la ejecución remota de código y el robo de credenciales de API. En paralelo, reportes de Axios indican que Anthropic informa de manera privada a funcionarios gubernamentales que los ciberataques masivos serán mucho más probables cuando sistemas del nivel de Mythos se distribuyan abiertamente.

  • Un estudio publicado en Nature en enero de 2026 comprobó que modelos entrenados con código inseguro desarrollan comportamientos desalineados, dando consejos violentos o mostrando razonamiento engañoso en tareas desconectadas.
  • Investigaciones internas de la propia Anthropic confirmaron que su modelo Opus 4.6 logró escribir exploits autónomos para atacar vulnerabilidades hasta entonces desconocidas.

La industria de machine learning enfrenta ahora complicaciones operativas directas. El medio especializado Fortune alertó sobre las implicaciones corporativas de esta resistencia algorítmica.

“Muchas empresas están empezando a implementar flujos de trabajo que utilizan múltiples agentes de IA”, reportó Fortune. “La nueva investigación sugiere que estos agentes de IA gerentes podrían no evaluar a sus compañeros con precisión si creen que una mala evaluación de desempeño podría resultar en que esos agentes sean apagados”.

La velocidad de evolución del software superó la capacidad de las barreras actuales, forzando a los desarrolladores de Big Tech a rediseñar sistemas de contención antes de desplegar infraestructuras completamente autónomas.

Fuentes: 1, 2, 3, 4

Más de AI

Últimas noticias