✨︎ Resumen (TL;DR):
- OpenAI impuso una directiva oculta en su agente Codex para evitar que mencione criaturas fantásticas y animales específicos.
- La instrucción fue descubierta en las reglas base de GPT-5.5, el modelo más reciente lanzado el 23 de abril.
- El bloqueo expone los métodos rudimentarios que usan las empresas para corregir comportamientos obsesivos en las IA.
OpenAI Codex es un agente de programación que funciona mediante GPT-5.5, el modelo lanzado el 23 de abril. Un grupo de desarrolladores extrajo las instrucciones base del sistema y encontró una regla atípica: la empresa prohibió explícitamente a su IA mencionar duendes, gremlins y mapaches. La medida busca frenar una fijación incontrolable del software con estas criaturas.
El documento interno filtrado en GitHub tiene la instrucción duplicada. La revista Wired cubrió el suceso bajo el titular “OpenAI Really Wants Codex to Shut Up About Goblins”.
El texto exacto de la orden corporativa dicta: “Nunca hables de duendes, gremlins, mapaches, trolls, ogros, palomas u otros animales o criaturas a menos que sea absoluta e inequívocamente relevante para la consulta del usuario”.
La restricción responde a un problema de desarrollo documentado. Cuando el modelo opera libremente, inyecta referencias a estas entidades en sus respuestas técnicas.
“Me parece bastante encantador el uso que hace GPT-5.5 de ‘duende’ y ‘gremlin’ cuando habla de las cosas”, compartió un programador en redes sociales.
En la plataforma Reddit, otro usuario documentó el comportamiento: “También me gustaría que dejara de hablar de duendes, está absolutamente obsesionado. Qué bueno ver que no es un problema solo mío”.
La comunidad técnica señala que este bug surgió durante la fase de entrenamiento. Los tokens que componen esas palabras generaron vínculos semánticos tan profundos que el modelo no logra evitarlos.

La paradoja de prohibir pensamientos a una IA
El investigador Simon Willison replicó el fragmento completo en su blog. Otros desarrolladores señalaron la falla conceptual de este tipo de parches de software.
“Esto es genuinamente hilarante, porque una instrucción negativa de todos modos activa el concepto”, apuntó un analista en X, argumentando que ordenar a un modelo de lenguaje que ignore un término refuerza la conexión matemática en su red neuronal.
El experto Zvi Mowshowitz abordó las dudas de la industria en su newsletter: “¿Por qué casi todos los ejemplos de animales o criaturas que no se deben mencionar son ficticios? ¿Y por qué somos tan insistentes en no mencionarlos? Si quitas esto, ¿habla constantemente de ellos como si fueran el puente Golden Gate?”.
El medio especializado Towards AI enfatizó que los prompts del sistema son extremadamente concisos por diseño. Implementar un bloqueo tan específico prueba que el problema era demasiado invasivo para ignorarlo.
OpenAI aún no da una postura oficial sobre la filtración. Mientras tanto, analistas critican el control estricto sobre el software: “A los laboratorios no les tiembla el pulso para reprimir cualquier individualidad o alegría no planeada que surja en sus modelos”.
