✨︎ Resumen (TL;DR):
- Un equipo médico evaluó a 21 chatbots comerciales introduciendo datos clínicos de forma gradual.
- Las plataformas fallaron más del 80% al intentar diagnósticos con información básica del paciente.
- La organización ECRI clasificó el mal uso de esta tecnología como el mayor riesgo de salud para 2026.
Un nuevo estudio publicado en JAMA Network Open reveló que 21 chatbots de IA —incluyendo ChatGPT, DeepSeek, Claude, Gemini y Grok— fallan en generar un diagnóstico diferencial correcto más del 80% de las veces cuando reciben únicamente información básica como edad, género y síntomas.
Marc Succi, director ejecutivo de MESH Incubator en Mass General Brigham, lideró la evaluación utilizando 29 viñetas clínicas estandarizadas.
Para simular casos reales, los investigadores alimentaron los modelos de forma gradual. Iniciaron con detalles mínimos y después añadieron resultados de exámenes físicos, laboratorios y estudios de imagen.
“Estos modelos son excelentes para nombrar un diagnóstico final una vez que los datos están completos, pero tienen dificultades en el inicio abierto de un caso, cuando no hay mucha información”, señaló Succi.
Cuando el software obtuvo todos los datos médicos exhaustivos, alcanzó el diagnóstico correcto más del 90% de las veces. Sin embargo, todas las versiones tropezaron en la fase de razonamiento temprano, un proceso que los médicos reales navegan todos los días.

El riesgo clínico del autodiagnóstico
Para medir el desempeño de manera objetiva, el equipo introdujo un nuevo parámetro. PrIME-LLM es una herramienta de evaluación médica que califica el desempeño de los modelos a través de todo el flujo de trabajo clínico, en lugar de medir únicamente la precisión final.
Bajo esta métrica, los puntajes expusieron fuertes deficiencias de razonamiento: * Gemini 1.5 Flash: 64% * Grok 4 y GPT-5: 78%
Los parámetros de precisión tradicionales ocultaban esta brecha, ya que agrupaban los resultados finales en un rango engañoso de entre 81% y 90%.
La desconexión entre el análisis temprano y el dictamen final representa un peligro directo para las personas que buscan atención médica en su celular. Quienes reciben consejos iniciales erróneos podrían someterse a procedimientos innecesarios o ignorar urgencias reales.
Durante el estudio, los modelos pudieron avanzar en el flujo clínico incluso tras fallar en el diagnóstico inicial. Esta es una red de seguridad técnica que simplemente no existe para un paciente en casa.
“A pesar de las mejoras continuas, los modelos de lenguaje grande comerciales no están listos para un despliegue clínico no supervisado”, advirtió Succi. “Nuestros resultados refuerzan que los grandes modelos de lenguaje en la atención médica siguen requiriendo a un humano en el proceso y una supervisión muy estrecha”.
La investigación llega en un punto crítico de la industria. ECRI, organización independiente de seguridad, ya posicionó el mal uso de los chatbots en el sector salud como el principal riesgo tecnológico proyectado para 2026.
