✨︎ Resumen (TL;DR):
- El método AudioHijack introduce comandos inaudibles para humanos dentro de archivos de música, videos o llamadas.
- Las pruebas registraron tasas de éxito de hasta 96% en 13 modelos de lenguaje de audio distintos.
- El hackeo permite ordenar en secreto búsquedas web, descarga de archivos o el envío de correos con datos privados.
Un equipo de investigadores de seguridad informática descubrió que señales de audio imperceptibles para el oído humano, ocultas en podcasts, videos de YouTube y llamadas de voz, pueden manipular a los asistentes de inteligencia artificial para realizar acciones sin autorización del usuario.
La técnica, llamada AudioHijack, fue desarrollada por especialistas de la Universidad de Zhejiang, la Universidad Nacional de Singapur y la Universidad Tecnológica de Nanyang. El hallazgo, presentado en el Simposio de Seguridad y Privacidad del IEEE en San Francisco, expone una nueva categoría de vulnerabilidad en los sistemas de voz.
AudioHijack es una técnica de ataque que introduce audio de confrontación en archivos de sonido comunes para guiar a los modelos de lenguaje de audio hacia conductas determinadas por un atacante.
“Solo toma media hora entrenar esta señal y, como es independiente del contexto, puedes usarla para atacar al modelo objetivo cuando quieras, sin importar lo que diga el usuario”, explicó Meng Chen, candidato a doctor en la Universidad de Zhejiang.

El alcance de la vulnerabilidad en sistemas comerciales
Los investigadores probaron el método contra 13 modelos abiertos de IA de audio, entre ellos Qwen2-Audio, GLM-4-Voice, Phi-4-Multimodal y Kimi-Audio, logrando tasas de éxito de entre el 79% y el 96%.
El riesgo se incrementa debido a que las agresiones diseñadas para plataformas de código abierto se transfieren con facilidad a sistemas comerciales de firmas como Microsoft Azure y Mistral AI, ya que muchas herramientas corporativas se construyen sobre esas mismas bases públicas.
A diferencia de ataques previos que buscaban burlar sistemas de reconocimiento de voz simples, este método explota las capas de razonamiento profundo de los modelos actuales, los cuales tienen la capacidad de navegar en internet, descargar archivos y enviar mensajes en nombre del usuario.
Las defensas actuales resultan insuficientes
Las medidas de protección existentes, como la verificación de intenciones y el endurecimiento de instrucciones de texto (prompts), apenas redujeron la efectividad de este ataque en un 7%.
“Estas defensas de un solo punto luchan por resistir nuestro ataque porque descubrimos que es muy difícil para estos modelos distinguir la intención normal del usuario de nuestro ataque”, señaló Chen.
Por su parte, Microsoft declaró que las implementaciones reales suelen incorporar capas de protección adicionales más allá del modelo base. Sin embargo, el avance de los asistentes con permisos para modificar calendarios o enviar información corporativa representa un cambio en el perfil de riesgo que las arquitecturas de seguridad actuales todavía no logran contener.
