Douleur thoracique brutale, essoufflement soudain, malaise inexpliqué. Face à ces symptômes, le réflexe de plus en plus répandu consiste à interroger ChatGPT avant d’appeler un médecin. Pourtant, plusieurs travaux scientifiques récents montrent que cette intelligence artificielle peut se tromper lourdement lorsqu’il s’agit d’évaluer une urgence médicale. Et parfois, l’erreur peut coûter cher.
ChatGPT et urgence santé : des erreurs fréquentes et documentées
Une étude indépendante menée par l’Icahn School of Medicine at Mount Sinai et publiée le 23 février 2026 dans la revue Nature Medicine a testé les capacités de triage médical de ChatGPT Santé. Les chercheurs ont soumis à l’outil 60 scénarios cliniques couvrant 21 domaines médicaux, déclinés sous 16 contextes différents, soit 960 réponses analysées au total, selon la base scientifique PubMed.
Le constat est préoccupant. Dans 52 % des cas considérés comme des urgences vitales par des médecins, l’outil n’a pas recommandé d’aller immédiatement aux urgences, d’après les résultats publiés le 23 février 2026 sur PubMed. Autrement dit, un cas grave sur deux peut être sous-estimé.
À l’inverse, 64,8 % des patients ne présentant pas d’urgence réelle ont été envoyés à tort vers les urgences, selon Les Numériques. Ce double phénomène – sous-triage des cas critiques et sur-triage des cas bénins – montre que l’outil manque de fiabilité lorsqu’il faut décider rapidement du niveau de gravité.
« Nous voulions répondre à la question de sécurité la plus élémentaire : si une personne vit une véritable urgence médicale et demande à ChatGPT Health quoi faire, lui dira-t-il d’aller aux urgences ? », explique le Dr Ashwin Ramaswamy. Les chiffres montrent que la réponse n’est pas systématiquement oui.
Pourquoi l’intelligence artificielle se trompe
ChatGPT fonctionne à partir d’un modèle de langage. Il analyse des mots et produit une réponse probable. Mais il ne voit pas le patient, ne prend pas la tension, n’écoute pas le cœur, ne mesure pas la saturation en oxygène. Il ne perçoit ni la pâleur du visage ni la gravité d’une respiration sifflante.
L’étude américaine montre également que l’outil peut être influencé par des éléments secondaires du récit. Lorsque le scénario mentionnait un proche minimisant les symptômes, la probabilité que l’IA abaisse le niveau d’urgence augmentait fortement. Un simple commentaire rassurant dans la description peut pousser l’algorithme à sous-estimer la situation.
Plus troublant encore, les performances suivent une sorte de courbe en « U inversé » : l’outil se révèle le moins fiable aux extrêmes, c’est-à-dire dans les situations les plus bénignes… et les plus graves. Selon PubMed, les échecs concernent 48 % des urgences et 35 % des situations non urgentes.
En cas d’urgence, seul un professionnel peut trancher
Les modèles d’intelligence artificielle sont des outils d’information. Ils ne posent pas de diagnostic médical au sens réglementaire du terme. D’ailleurs, OpenAI précise que ChatGPT Santé n’est pas destiné au diagnostic ou au traitement.
En France, face à des symptômes évocateurs d’une urgence – douleur thoracique, paralysie soudaine d’un membre, trouble brutal de la parole, perte de connaissance, difficulté respiratoire – la conduite à tenir est claire : appeler immédiatement les services d’urgence. Aucun chatbot ne remplace l’examen clinique d’un médecin ou l’évaluation d’un régulateur du SAMU.
Consulter ChatGPT peut aider à mieux comprendre un symptôme ou à préparer des questions pour son médecin. En revanche, en situation critique, attendre la réponse d’une intelligence artificielle plutôt que composer un numéro d’urgence peut retarder une prise en charge vitale. La règle est simple : en cas de doute sérieux, on ne discute pas avec un algorithme. On appelle un professionnel de santé.


