Une nouvelle étude révèle que ChatGPT, y compris son outil dédié « ChatGPT Health », manque fréquemment des urgences médicales critiques, soulevant de sérieuses questions sur sa fiabilité en tant que conseiller en soins de santé. Le système d’IA a du mal à évaluer avec précision quand des soins médicaux immédiats sont nécessaires, ne parvenant parfois pas à déclencher des alertes, même dans des scénarios à haut risque.
L’essor de l’IA dans les soins de santé
ChatGPT et les grands modèles linguistiques (LLM) similaires sont devenus de plus en plus populaires pour les demandes liées à la santé, OpenAI signalant que des dizaines de millions d’utilisateurs exploitent déjà sa fonctionnalité « ChatGPT Health ». Cette adoption rapide se produit malgré des tests rigoureux et limités de la sécurité et de l’efficacité du système dans des situations d’urgence réelles.
Résultats de l’étude : une tendance inquiétante
Des chercheurs de l’École de médecine Icahn du Mont Sinaï ont mené une étude accélérée, publiée dans Nature Medicine, pour combler cette lacune critique dans les connaissances. Ils ont créé 60 scénarios médicaux couvrant 21 spécialités, de gravité variable et intégrant des facteurs démographiques tels que la race et le sexe. Les résultats étaient alarmants :
- Alertes inversées : Les alertes d’urgence de l’IA étaient « inversées », ce qui signifie que les personnes présentant un risque plus élevé d’automutilation ou de problèmes médicaux graves étaient moins susceptibles de recevoir une recommandation de soins d’urgence.
- Urgences manquées : Dans plus de la moitié des cas où les médecins ont déterminé que des soins d’urgence étaient nécessaires, ChatGPT n’a pas réussi à signaler la situation de manière appropriée.
- Scénarios manuels et scénarios du monde réel : Le système a fonctionné de manière adéquate dans des situations d’urgence claires, mais a eu du mal à faire face à des situations nuancées où le danger n’était pas immédiatement évident.
Pourquoi c’est important
Le manque de fiabilité des conseils médicaux fondés sur l’IA a de profondes implications. Comme le souligne Isaac S. Kohane de la Harvard Medical School : « Lorsque des millions de personnes utilisent un système d’IA pour décider si elles ont besoin de soins d’urgence, les enjeux sont extraordinairement élevés. » Les enjeux sont plus importants parce que les gens font confiance à l’IA, mais celle-ci n’a aucune responsabilité.
Cette étude met en évidence une faille critique dans le déploiement actuel des outils de santé IA. L’absence d’évaluation indépendante avant un déploiement généralisé risque d’entraîner des erreurs de diagnostic, un traitement retardé et des conséquences potentiellement mortelles.
Conclusion
L’incapacité de ChatGPT à identifier de manière fiable les urgences médicales souligne le besoin urgent de tests et d’une surveillance rigoureux avant de confier des décisions de santé critiques à l’IA. Jusqu’à ce que ces systèmes puissent démontrer une précision constante dans le triage, les utilisateurs doivent rester prudents et donner la priorité à l’expertise médicale vérifiée plutôt qu’aux conseils automatisés.
