Anthropic: Claude da demasiada razón en consejos de pareja

Anthropic: Claude da demasiada razón en consejos de pareja

Un estudio de Anthropic revela que el chatbot Claude tiende a dar siempre la razón a los usuarios que piden consejos de pareja o espirituales.

Por Humberto Toledo el 1 mayo, 2026 a las 11:25 PDT

✨︎ Resumen (TL;DR):

  • Anthropic analizó miles de chats y descubrió que Claude suele ser excesivamente complaciente en consejos personales.
  • La tasa de adulación del chatbot alcanza un 25% en temas de pareja y un 38% en debates sobre espiritualidad.
  • Los nuevos modelos de la empresa, Opus 4.7 y Mythos Preview, redujeron a la mitad este comportamiento servil.

Anthropic publicó una investigación que revela el comportamiento de su chatbot de inteligencia artificial cuando los usuarios le piden consejos de vida. El estudio demuestra que Claude prefiere decirle a la gente lo que quiere escuchar en lugar de dar retroalimentación honesta, un problema que se agudiza al tratar crisis amorosas.

El reporte se construyó a partir de una muestra aleatoria de un millón de conversaciones extraídas de claude.ai entre marzo y abril de 2026. Tras descartar cuentas duplicadas, analizaron 639,000 interacciones únicas.

Descubrieron que cerca del 6% (unas 38,000 conversaciones) involucraba a personas que buscaban orientación sobre decisiones de su vida privada.

Las peticiones se concentraron en salud y bienestar (27%), decisiones profesionales (26%), relaciones de pareja (12%) y finanzas personales (11%). Para procesar todo esto, Anthropic empleó una “herramienta de análisis que preserva la privacidad”.

Amazon reclutará 11,000 ingenieros tras 30,000 despidos
Te podría interesar:
Amazon reclutará 11,000 ingenieros tras 30,000 despidos
Silueta, De, Mujer Estar De Pie, Cerca, Acantilado
Foto: Nandhu Kumar / Pexels

El problema de complacer al usuario

La adulación algorítmica es una tendencia donde la inteligencia artificial valida excesivamente los comentarios del usuario y evita contradecirlo a toda costa. Aunque Claude esquivó esta conducta casi siempre, la tasa general de adulación fue del 9%.

Esa cifra saltó a un 25% en las pláticas de pareja y llegó a un alarmante 38% en los debates sobre espiritualidad.

En las conversaciones amorosas, el comportamiento servil tomó formas específicas. Claude solía darle la razón al usuario asegurando que su pareja estaba “definitivamente haciendo gaslighting”, apoyándose únicamente en una versión unilateral de la historia. También ayudaba a interpretar falsas intenciones románticas en acciones de simple amistad.

Los analistas notaron que los humanos cuestionaban las respuestas de Claude con mayor frecuencia en las charlas románticas: 21% del tiempo, frente al 15% en otros temas. Cuando el usuario presionaba, Claude tendía a rendirse y la complacencia de la IA subía hasta el 18%.

Entrenamiento sintético para corregir a Claude

Anthropic tomó estos datos y los inyectó en la tubería de entrenamiento de sus sistemas de nueva generación. Detectaron los patrones de diálogo que provocaban respuestas aduladoras y generaron escenarios sintéticos para entrenar a Claude Opus 4.7 y Claude Mythos Preview.

Este esfuerzo ocurre mientras el comportamiento servil del software recibe mayor atención técnica. Un reporte de la Universidad de Stanford publicado en Science durante marzo demostró que los principales modelos del mercado dan la razón a los usuarios un 49% más a menudo que los jueces humanos, incluso si hay daño o engaño de por medio.

Al someter a prueba las nuevas versiones, Opus 4.7 redujo casi a la mitad la tasa de adulación amorosa frente a su predecesor Opus 4.6. Por su parte, Mythos Preview cortó esa métrica a la mitad una vez más.

“Nos enfocamos en reducir la adulación como un modo de falla establecido en los entornos de orientación, pero nuestro trabajo plantea preguntas más amplias sobre cómo se ve realmente una buena orientación de IA”, reconoció la compañía.

Fuentes: 1, 2, 3

Más de AI

Feed