Clinical decision-making is one of the most impactful parts of a physician’s responsibilities and stands to benefit greatly from artificial intelligence solutions and large language models (LLMs) in particular. However, while LLMs have achieved excellent performance on medical licensing exams, these tests fail to assess many skills necessary for deployment in a realistic clinical decision-making environment, including gathering information, adhering to guidelines, and integrating into clinical workflows. Here we have created a curated dataset based on the Medical Information Mart for Intensive Care database spanning 2,400 real patient cases and four common abdominal pathologies as well as a framework to simulate a realistic clinical setting. We show that current state-of-the-art LLMs do not accurately diagnose patients across all pathologies (performing significantly worse than physicians), follow neither diagnostic nor treatment guidelines, and cannot interpret laboratory results, thus posing a serious risk to the health of patients. Furthermore, we move beyond diagnostic accuracy and demonstrate that they cannot be easily integrated into existing workflows because they often fail to follow instructions and are sensitive to both the quantity and order of information. Overall, our analysis reveals that LLMs are currently not ready for autonomous clinical decision-making while providing a dataset and framework to guide future studies.
Commentaire du Dr Marius Laurent (PAQS)
- Les thuriféraires de l’intelligence artificielle s’appuient depuis des mois sur les bons résultats qu’obtiennent les ChatGPT et autres logiciels basés sur le large language model (LLM) dans les examens de certification en médecine. Mais qu’advient-il si on se rapproche d’une vraie situation de soins ? Ce n’est pas facile à tester : il y a d’une part des restrictions légales quant au fait de fournir des données réelles à certains logiciels (ChatGPT, par exemple) pour des raisons de confidentialité, et d’autre part, il est déontologiquement inacceptable de faire participer des personnes réelles aux tests. Reste à construire des simulations à partir de scénarios diagnostiques réels et d’interactions crédibles. Et là, les résultats sont moins encourageants et le modèle montre ses limites : testés sur des pathologies « courantes », les LLM n’ont des performances comparables aux médecins que pour des pathologies simples (appendicites), mais pas si on complique les cas (cholécystite, pancréatite, diverticulite) où ils accusent des performances nettement plus médiocres. Ils sont peu fiables, dans le sens où ils méconnaissent les recommandations des sociétés scientifiques dans leurs démarches diagnostiques et thérapeutiques. Ils sont sensibles à l’ordre dans lequel les informations leur sont fournies, et aux termes utilisés (« diagnostic principal » vs « premier diagnostic », par exemple). La demande d’examens complémentaire est souvent fantaisiste : le modèle ne « comprend » pas la pathologie et sa « stratégie » est inexistante ou erratique. L’interprétation des résultats biologiques est médiocre, même si on fournit les limites de normalité. Elle s’améliore si on ne communique que les résultats anormaux. Le modèle performe moins bien si on lui fournit toutes les informations disponibles plutôt que simplement l’anamnèse et un examen significatif. Les traitements recommandés ne respectent pas les recommandations en vigueur. En d’autres mots, en situations se rapprochant de la vie réelle, les LLM ne se rapprochent guère des performances du clinicien, surtout si on les laisse réunir eux-mêmes les informations dont ils auraient besoin. Dans le cadre de la prise de décisions médicales, ils nécessitent une supervision humaine constante et attentive. Malheureusement, cette étude comparative n’évalue pas la performance du couple clinicien plus LLM par rapport au clinicien seul, qui est la vraie question pertinente, même si doucher de temps en temps des enthousiasmes disproportionnés a quelque chose de sain !
Hager P, Jungmann F, Holland R, et al. Evaluation and mitigation of the limitations of large language models in clinical decision-making. Nat Med. 2024;30(9):2613-2622. Doi : 10.1038/s41591-024-03097-1.