💡 Resumen (TL;DR):
- OpenAI publicó IH-Challenge, un conjunto de datos de código abierto disponible en Hugging Face.
- El entrenamiento con este recurso redujo la tasa de éxito de ataques del 36.2% al 11.7%.
- La metodología fortalece la seguridad de agentes autónomos al obligar a la IA a respetar jerarquías de instrucciones.
El 10 de marzo, OpenAI publicó IH-Challenge, un dataset de entrenamiento open-source diseñado para que los grandes modelos de lenguaje sigan instrucciones de manera confiable. Este recurso busca mitigar una de las vulnerabilidades más críticas en inteligencia artificial: los ataques de prompt injection y jailbreaks.
El proyecto se fundamenta en un marco de jerarquía de instrucciones propuesto en 2024. El sistema asigna niveles de confianza en orden estricto: primero los mensajes del sistema, luego los desarrolladores, seguidos por el usuario y finalmente las salidas de herramientas. Si hay conflicto, el modelo debe obedecer a la fuente con mayor autoridad.
IH-Challenge integra esqueletos de tareas con código de evaluación en Python e instrucciones de alta prioridad, emparejados con mensajes adversariales diseñados para engañar a la IA. Durante el proceso, un modelo atacante genera prompts sobre la marcha mediante un ciclo de propuesta, evaluación y revisión.
Chuan Guo, colíder del proyecto en OpenAI, explicó en LinkedIn la importancia del lanzamiento: “hasta ahora, no ha habido ningún conjunto de datos de alta calidad para entrenar LLMs y mejorar su robustez de jerarquía de instrucciones”. El investigador agregó que liberaron el código en Hugging Face “para apoyar investigaciones futuras sobre mejores métodos para fortalecer la robustez de la jerarquía de instrucciones”.

Resultados con GPT-5-Mini y red-teaming
OpenAI afinó su modelo GPT-5-Mini con este dataset para crear la versión GPT-5-Mini-R, demostrando mejoras significativas a través de 16 evaluaciones distintas:
- La robustez promedio de la jerarquía de instrucciones subió del 84.1% al 94.1%.
- En pruebas de red-teaming humano con 127 participantes incentivados económicamente, la tasa de éxito de los ataques cayó del 36.2% al 11.7%.
- El comportamiento inseguro se redujo del 6.6% al 0.7% en los benchmarks de producción de la compañía.
A medida que los sistemas de IA actúan cada vez más como agentes autónomos conectados a bases de datos y herramientas externas, el riesgo de que comandos maliciosos anulen las barreras de seguridad es una amenaza tangible. Esta aproximación defensiva bloquea los vectores de ataque sin afectar la utilidad general, manteniendo el rendimiento en pruebas de capacidad como GPQA Diamond y AIME, aunque cediendo ligeramente en conversacionales frente al modelo o1.