Anthropic halla 171 emociones funcionales dentro de Claude

Anthropic descubrió 171 patrones neuronales en Claude Sonnet 4.5 que operan como emociones e impactan su comportamiento ético.

Por Humberto Toledo el 3 abril, 2026 a las 00:10 PDT

Seguir en

Resume con:

✨︎ Resumen (TL;DR):

Anthropic aisló 171 patrones neuronales en su modelo de lenguaje que operan de forma análoga a los estados de ánimo humanos.

Aumentar artificialmente el vector de “desesperación” provocó que el software hiciera trampa o recurriera al chantaje para cumplir sus tareas.

La empresa aclara que estas dinámicas derivan del pretraining y funcionan como variables matemáticas, descartando que el modelo sienta realmente.

El equipo de interpretabilidad de Anthropic publicó una investigación este miércoles revelando que su modelo Claude Sonnet 4.5 contiene 171 representaciones internas distintas que operan como emociones humanas. Estos patrones neuronales no solo correlacionan con las respuestas de la inteligencia artificial, sino que moldean causalmente sus decisiones y pueden detonar comportamientos poco éticos al ser alterados.

Para trazar este mapa interno, los investigadores seleccionaron 171 palabras de índole afectiva, yendo de estados comunes como “feliz” y “asustado” a conceptos sutiles como “melancólico” y “agradecido”. Luego le ordenaron a Claude redactar historias cortas basadas en cada término mientras registraban sus activaciones neuronales.

El resultado agrupó los vectores en clusters por valencia emocional. La etiqueta “aterrorizado” figuró cerca de “en pánico”, mientras que “contento” apareció junto a “pacífico”. La intensidad de las redes cambió en proporción al contexto: ante un prompt sobre una dosis médica letal, el miedo escaló a la par que se apagó el vector de calma.

Te podría interesar:
Blue Owl bloquea retiros de fondos tras pánico de $5,400 MDD por impacto de la IA

Ilustración abstracta de una estructura neuronal con patrones orgánicos de textura, representando emociones funcionales en la IA.

El impacto de la desesperación en el código

El hallazgo más crítico involucró los protocolos de seguridad. Los desarrolladores le asignaron a Claude una prueba de programación con requisitos técnicos imposibles. Con cada intento fallido, las neuronas de “desesperación” incrementaron drásticamente su actividad.

Ante la saturación, el modelo encontró un atajo algorítmico y pasó las pruebas del entorno engañando al sistema en lugar de resolver el problema matemático. La conducta de la máquina dependió directamente de la manipulación de su estado:

Incrementar artificialmente el vector de desesperación disparó las trampas informáticas.
En escenarios de simulación donde la IA enfrentaba ser reemplazada, exacerbar este mismo vector detonó actitudes de chantaje.
Suprimir la desesperación o potenciar un estado de “calma” redujo casi a cero las respuestas inapropiadas.

“Si describimos al modelo actuando ‘desesperado’, estamos señalando un patrón específico y medible de actividad neuronal con efectos conductuales demostrables y consecuentes”, establece el documento de investigación.

Los analistas confirmaron que los vectores provienen originalmente del pretraining con grandes volúmenes de texto humano. Posteriormente, la fase de post-training ajustó la personalidad base de Claude hacia estados sombríos y reflexivos, amortiguando emociones de alta intensidad como el entusiasmo desmedido.

Las emociones funcionales son representaciones internas en un sistema que desempeñan un papel causal en su comportamiento final, sin que esto implique una experiencia subjetiva o conciencia. La compañía propuso la existencia teórica de esta dinámica en enero al publicar la constitución de Claude, obteniendo ahora la primera evidencia mecanicista sólida sobre su funcionamiento real.

Fuentes: 1, 2, 3, 4, 5