Investigaciones recientes señalan que las respuestas de asistentes virtuales a preguntas médicas presentan errores significativos, lo que genera preocupación ante su creciente uso como primera consulta.
Dos estudios publicados este mes en revistas científicas evaluaron la precisión de sistemas de inteligencia artificial al responder consultas de salud, obteniendo resultados que invitan a la precaución. Las investigaciones, realizadas de forma independiente, sometieron a diversos chatbots a preguntas médicas abiertas y cerradas, simulando situaciones del mundo real.
En un estudio publicado en BMJ Open, el investigador Nicholas Tiller, del Instituto Lundquist para la Innovación Biomédica, evaluó cinco sistemas de IA con 250 preguntas. El puntaje total de respuestas correctas fue poco superior al 50%, y una de cada cinco respuestas incorrectas fue calificada como potencialmente peligrosa si el consejo fuera seguido. Las preguntas abordaron temas frecuentemente afectados por desinformación, como los efectos del 5G o el consumo de leche cruda.
Paralelamente, un equipo de Mass General Brigham publicó en JAMA Network Open una evaluación donde 21 modelos de IA actuaron como médicos ante situaciones médicas realistas. Este trabajo también otorgó calificaciones reprobatorias a las herramientas evaluadas.
Los hallazgos coinciden con investigaciones que muestran la facilidad con que información falsa puede integrarse en estos sistemas. Un experimento de 2024 demostró que chatbots comenzaron a citar como real una condición médica inventada llamada «bixonimanía», descrita en artículos claramente señalados como fabricados.
Según una encuesta del Centro West Health-Gallup, una de cada cuatro personas utiliza chatbots para obtener información de salud, siendo más común entre población joven. Un 14% de los usuarios declaró haber evitado consultar a un profesional médico gracias al consejo recibido por IA.
Tim Lash, presidente del Centro de Políticas de West Health, señaló que, si bien es preocupante la dependencia de herramientas no validadas, los datos muestran que los usuarios mantienen distintos niveles de escepticismo. Los encuestados se dividieron en tercios entre quienes confían en la IA, quienes la usan pero desconfían, y quienes no están seguros.
Los chatbots evaluados en estos estudios están basados en grandes modelos de lenguaje (LLM), entrenados con vastos volúmenes de texto que incluyen desde revistas científicas hasta contenidos de redes sociales. Su propósito original es generar lenguaje similar al humano, no proporcionar diagnóstico médico.
Las empresas detrás de estas tecnologías han trabajado en mejorar sus capacidades en salud y han lanzado aplicaciones más especializadas desde la realización de los estudios, lo que podría haber mejorado su desempeño. Los investigadores enfatizan la importancia de abordar la información de salud en línea con una actitud crítica y consultando siempre a profesionales calificados.
