L’intelligenza artificiale può migliorare l’accuratezza delle diagnosi mediche? I ricercatori della UVA Health, una rete sanitaria affiliata all’Università della Virginia, hanno cercato di rispondere a questa domanda. Il risultato del loro studio è sorprendente: sebbene l’intelligenza artificiale possa effettivamente superare i medici in determinati compiti diagnostici, la sua integrazione nel loro flusso di lavoro non ha migliorato significativamente le loro prestazioni complessive.
I modelli linguistici di grandi dimensioni (LLM) hanno mostrato risultati promettenti nel superamento degli esami di ragionamento medico, siano essi domande a scelta multipla o a risposta aperta. Tuttavia, resta da determinare il loro impatto sul miglioramento del ragionamento diagnostico dei medici in situazioni reali.
Andrew S. Parsons, che supervisiona l’insegnamento delle competenze cliniche agli studenti di medicina presso la School of Medicine dell’Università della Virginia e co-dirige il Clinical Reasoning Research Collaborative, e i suoi colleghi di UVA Health volevano portare ChatGPT Plus (GPT-4) a la prova. Il loro studio è stato pubblicato sulla rivista scientifica JAMA Network Open e accettato questo mese dal simposio del 2024 dell’American Medical Informatics Association.
Metodologia di studio
I ricercatori hanno reclutato 50 medici che praticano medicina di famiglia, medicina interna e medicina d’urgenza per lanciare uno studio clinico randomizzato e controllato in tre importanti ospedali: UVA Health, Stanford e Beth Israel Deaconess Medical Center di Harvard. La metà di loro è stata assegnata in modo casuale a utilizzare ChatGPT oltre ai metodi convenzionali come Google o siti di riferimento medico come UpToDate, mentre l’altra metà si è affidata esclusivamente a questi metodi convenzionali.
Ai partecipanti sono stati concessi 60 minuti per rivedere fino a 6 vignette cliniche, strumenti didattici utilizzati in campo medico per valutare e migliorare le competenze cliniche degli operatori sanitari. Queste vignette, basate su casi reali, includevano dettagli sulla storia dei pazienti, esami fisici e risultati dei test di laboratorio.
Risultati
Dallo studio è emerso che i medici che utilizzano ChatGPT Plus hanno raggiunto un’accuratezza diagnostica mediana del 76,3%, leggermente superiore al 73,7% dei medici che si affidavano esclusivamente a strumenti tradizionali. Se la differenza rimane modesta, invece, Chat GPT Plus, utilizzata in maniera indipendente, ha raggiunto un’impressionante precisione del 92%.
Sebbene i partecipanti allo studio che hanno utilizzato ChatGPT Plus abbiano raggiunto una diagnosi complessivamente leggermente più rapida (519 secondi contro 565 secondi per caso), paradossalmente hanno ridotto l’accuratezza diagnostica dell’IA.
Per i ricercatori, questo calo di precisione potrebbe essere dovuto ai suggerimenti utilizzati. Evidenziano la necessità di formare i medici all’uso ottimale dell’IA, in particolare utilizzando i suggerimenti in modo più efficace. In alternativa, le organizzazioni sanitarie potrebbero acquistare istruzioni predefinite da implementare nel flusso di lavoro e nella documentazione clinica.
Dicono che ChatGPT Plus probabilmente funzionerebbe meno bene nella vita reale, dove entrano in gioco molti altri aspetti del ragionamento clinico, in particolare nel determinare gli effetti a valle delle diagnosi e delle decisioni terapeutiche. Chiedono ulteriori studi per valutare le capacità di ampi modelli linguistici in queste aree e stanno conducendo uno studio simile sul processo decisionale gestionale.
Conclusioni
I risultati rivelano una sfumatura chiave: sebbene gli LLM siano capaci di prestazioni autonome impressionanti, il loro utilizzo in aggiunta ai metodi tradizionali non ha migliorato significativamente l’accuratezza diagnostica dei medici.
Lo avvertono i ricercatori “i risultati di questo studio non dovrebbero essere interpretati come indicanti che gli LLM dovrebbero essere utilizzati per la diagnosi su base autonoma senza la supervisione del medico” aggiungendo quello “Sono necessari ulteriori sviluppi nelle interazioni uomo-macchina per realizzare il potenziale dell’intelligenza artificiale nei sistemi di supporto alle decisioni cliniche”.
Hanno inoltre lanciato una rete di valutazione dell’intelligenza artificiale bicoasta chiamata ARiSE (AI Research and Science Evaluation) per valutare ulteriormente i risultati di GenAI nel settore sanitario.
Riferimenti agli articoli
“Influenza di un ampio modello linguistico sul ragionamento diagnostico. Uno studio clinico randomizzato” doi:10.1001/jamanetworkopen.2024.40969
Gruppo di ricerca: Ethan Goh, Robert Gallo, Jason Hom, Eric Strong, Yingjie Weng, Hannah Kerman, Joséphine A. Cool, Zahir Kanjee, Andrew S. Parsons, Neera Ahuja, Eric Horvitz, Daniel Yang, Arnold Milstein, Andrew PJ Olson, Adam Rodman e Jonathan H. Chen.