OpenAI pagará por hallar fallos en sus agentes de IA

OpenAI lanza un programa para encontrar vulnerabilidades y riesgos en sus agentes de IA y sistemas autónomos.

Por Humberto Toledo el 25 marzo, 2026 a las 18:11

✨︎ Resumen (TL;DR):

OpenAI lanzó un programa de recompensas para cazar vulnerabilidades en sus sistemas autónomos.

Los ataques de inyección de prompts deben ser reproducibles al menos el 50% de las veces para aplicar.

La medida busca mitigar los riesgos de los agentes de IA que navegan en internet o ejecutan código.

OpenAI presentó el programa Safety Bug Bounty para identificar riesgos de abuso en sus productos de inteligencia artificial. La iniciativa busca aislar vulnerabilidades en sistemas autónomos, como la inyección de prompts de terceros y la extracción de datos.

Safety Bug Bounty es un esquema de recompensas alojado en Bugcrowd que incentiva a investigadores independientes. A diferencia de las revisiones de software tradicionales, esta edición se enfoca en problemas que alteran el comportamiento de la IA y representan peligros operativos.

Te podría interesar:
Hackers rompen cadena de suministro: Trivy y LiteLLM exponen más de 1,000 nubes

Herramienta de precisión reparando una microfisura en un componente tecnológico de vanguardia.

Categorías de riesgo y reglas de cacería

El esfuerzo clasifica las amenazas en tres áreas específicas:

Riesgos de agentes que obligan a herramientas como ChatGPT Agent a ejecutar acciones dañinas.
Fugas de información confidencial a través de las respuestas del modelo.
Evasión de controles automatizados o fallas de integridad de cuentas dentro de la plataforma.

Para cobrar el pago, un ataque de inyección de prompts requiere un nivel de reproducción del 50 por ciento. Los jailbreaks generales que solo evaden políticas de contenido, sin demostrar un impacto tangible en la seguridad, quedan excluidos.

El escrutinio sobre el Model Context Protocol refleja la preocupación técnica por los agentes que navegan en la web. A principios de mes, OpenAI adquirió la firma Promptfoo para sumar pruebas de red-teaming corporativo y escaneo de vulnerabilidades.

En su reconocimiento en diciembre de 2025, la compañía admitió tras probar su sistema ChatGPT Atlas que la inyección de prompts “es posible que nunca se resuelva por completo” para los agentes basados en navegadores.

Aunque desplegaron un modelo entrenado contra adversarios con salvaguardas reforzadas, los ingenieros advirtieron que “la naturaleza de la inyección de prompts hace que las garantías deterministas sean difíciles”.

Los especialistas enviarán sus hallazgos a través de Bugcrowd para una revisión técnica conjunta. El movimiento establece una base de control crítico para contener los riesgos de seguridad antes de que el uso empresarial de agentes autónomos domine el mercado.

Fuentes: 1, 2, 3, 4, 5

OpenAI pagará por hallar fallos en sus agentes de IA

Categorías de riesgo y reglas de cacería

Más de AI

Nature avala IA que crea estudios científicos autónomos

Google reduce 6x la memoria de los LLM con TurboQuant

Zoom presenta AI Companion 3.0 para automatizar juntas