Un equipo de la Universidad Wake Forest ha evaluado la fiabilidad de cinco chatbots de inteligencia artificial en el ámbito sanitario. El análisis, publicado en la revista *BMJ Open, comparó a Gemini, DeepSeek, Meta AI, ChatGPT y Grok frente a 250 preguntas médicas de cáncer, vacunas, células madre, nutrición y rendimiento deportivo.
Metodología y resultados del análisis de chatbots
Los investigadores formularon preguntas tanto abiertas como cerradas, simulando dudas habituales de usuarios sin formación médica. Cada respuesta fue clasificada como no problemática, moderadamente problemática o altamente problemática, según su potencial para inducir tratamientos ineficaces o peligrosos.

Los resultados mostraron que el 50 % de las respuestas fueron problemáticas y el 20 % altamente problemáticas. Las preguntas abiertas generaron errores con mayor frecuencia que las cerradas, evidenciando una vulnerabilidad del modelo ante consultas menos estructuradas.





