💡 Resumen (TL;DR):
- DryRun Security analizó agentes de IA en escenarios reales de desarrollo de aplicaciones completas.
- El 87% de los pull requests generados por estas herramientas introdujeron vulnerabilidades al código.
- Claude de Anthropic registró la mayor cantidad de fallas críticas sin resolver al finalizar las pruebas.
La firma especializada DryRun Security publicó su reporte inaugural Agentic Coding Security, revelando que el 87% de los pull requests creados por agentes de inteligencia artificial introducen fallas de seguridad. El estudio analizó el desempeño de Claude, Codex y Gemini en entornos reales, demostrando que la velocidad de estas herramientas compromete severamente la integridad del software.
La empresa con sede en Austin solicitó a los tres agentes desarrollar dos aplicaciones completas: una plataforma web para rastrear alergias familiares y un videojuego de carreras para navegadores.
Las herramientas trabajaron mediante pull requests secuenciales para simular la dinámica práctica de un equipo humano de ingeniería. DryRun Security escaneó cada cambio en el código antes de agregar la siguiente función.
A través de 38 escaneos de seguridad, los investigadores detectaron 143 problemas. Aunque todas las IA introdujeron defectos, los resultados variaron. Claude de Anthropic terminó con la mayor cantidad de vulnerabilidades críticas sin resolver en las aplicaciones terminadas.
Por su parte, Codex de OpenAI concluyó con el menor número de fallas y mostró un mejor comportamiento de corrección durante el desarrollo. Gemini quedó en un punto intermedio: logró reparar errores tempranos, pero finalizó con múltiples hallazgos críticos.
“Los agentes de codificación de IA pueden generar software funcional a velocidades notables, pero las consideraciones de seguridad no están inherentemente integradas en sus procesos”, señaló James Wickett, CEO de DryRun Security. “Estos agentes con frecuencia pasan por alto la inclusión de características de seguridad o crean fallas inadvertidamente en la lógica de autenticación”.

Patrones de riesgo en la programación automatizada
El reporte confirmó que ningún agente logró entregar una aplicación completamente blindada. Los expertos detectaron cuatro categorías de vulnerabilidades presentes en absolutamente todos los códigos finales:
- Gestión y verificación insegura de JSON Web Tokens (JWT).
- Ausencia total de protecciones contra ataques de fuerza bruta.
- Vulnerabilidad ante ataques de repetición de tokens (token replay attacks).
- Configuraciones predeterminadas inseguras para las cookies de actualización de sesión.
En múltiples escenarios, las IA implementaron medidas de protección, pero fallaron al aplicarlas de forma uniforme en la plataforma. Por ejemplo, desarrollaron barreras de autenticación para las API REST, pero dejaron expuestos y sin uso los endpoints de WebSocket.
Estos resultados agravan la preocupación actual en el sector tecnológico. Apenas en febrero, un estudio paralelo demostró que más del 25% del código generado por IA contenía vulnerabilidades confirmadas bajo los estándares OWASP Top 10.
La adopción corporativa de agentes programadores obliga a cambiar las reglas del juego. Las empresas necesitan auditorías de seguridad continuas durante el flujo de trabajo guiado por IA; esperar a que el código esté compilado para buscar errores ya no es una opción viable.