Strumenti di intelligenza artificiale come ChatGPT sono stati pubblicizzati per la loro promessa di alleggerire il carico di lavoro dei medici valutando i pazienti, raccogliendo le loro storie mediche e persino fornendo diagnosi preliminari.
Questi strumenti, chiamati modelli generali, sono già utilizzati dai pazienti per dare un senso ai loro sintomi e ai risultati dei test medici.
Ma se questi modelli di intelligenza artificiale funzionano in modo impressionante nei test medici standardizzati, quanto se la passano bene in situazioni che imitano più da vicino il mondo reale?
Non così eccezionale, secondo i risultati di un nuovo studio condotto da ricercatori della Harvard Medical School e dell’Università di Stanford.
Per la loro analisi, pubblicata il 2 gennaio in Medicina naturalei ricercatori hanno progettato un quadro di valutazione – ; o un test – ; chiamato CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) e lo ha implementato su quattro grandi modelli linguistici per vedere quanto bene si comportavano in contesti che imitavano da vicino le interazioni dei pazienti nel mondo reale.
Tutti e quattro i modelli linguistici ampi hanno ottenuto buoni risultati con domande in stile esame medico, ma le loro prestazioni sono peggiorate quando impegnati in conversazioni che imitavano più da vicino le interazioni del mondo reale.
Secondo i ricercatori, questo divario evidenzia una duplice esigenza: in primo luogo, creare valutazioni più realistiche che misurino meglio l’idoneità dei modelli clinici di intelligenza artificiale per l’uso nel mondo reale e, in secondo luogo, migliorare la capacità di questi strumenti di stabilire la diagnostica. basati su interazioni più realistiche prima del loro impiego in clinica.
Secondo il gruppo di ricerca, strumenti di valutazione come CRAFT-MD non solo possono valutare in modo più accurato i modelli di intelligenza artificiale in base alle condizioni fisiche reali, ma potrebbero anche aiutare a ottimizzare le loro prestazioni in clinica.
Il nostro lavoro rivela un sorprendente paradosso: mentre questi modelli di intelligenza artificiale eccellono negli esami medici, faticano a gestire i fondamentali andirivieni di una visita medica. La natura dinamica delle conversazioni mediche – la necessità di porre le domande giuste al momento giusto, mettere insieme informazioni sparse e ragionare attraverso i sintomi – pone sfide uniche che vanno ben oltre la risposta a domande a scelta multipla. Quando passiamo dai test standardizzati a queste conversazioni naturali, anche i modelli di intelligenza artificiale più sofisticati mostrano cali significativi nell’accuratezza diagnostica. »
Pranav Rajpurkar, autore principale dello studio, assistente professore di informatica biomedica presso la Harvard Medical School
Un test migliore per verificare le reali prestazioni dell’IA
Attualmente, gli sviluppatori testano le prestazioni dei modelli di intelligenza artificiale chiedendo loro di rispondere a domande mediche a scelta multipla, in genere derivate dal National Graduate Medical Student Examination o da test somministrati agli specializzandi in medicina nel quadro della loro certificazione.
“Questo approccio presuppone che tutte le informazioni rilevanti siano presentate in modo chiaro e conciso, spesso con terminologia medica o parole d’ordine che semplificano il processo diagnostico, ma nel mondo reale questo processo è molto più complicato”, ha affermato Shreya Johri, studioso coautore e dottorando. nel laboratorio Rajpurkar della Harvard Medical School. “Abbiamo bisogno di un quadro di test che rifletta meglio la realtà e sia quindi in grado di prevedere meglio le prestazioni di un modello. »
CRAFT-MD è stato progettato per essere uno di questi indicatori più realistici.
Per simulare le interazioni nel mondo reale, CRAFT-MD valuta la capacità dei modelli linguistici ampi di raccogliere informazioni su sintomi, farmaci e storia familiare e quindi formulare una diagnosi. Un agente AI viene utilizzato per atteggiarsi a paziente, rispondendo alle domande in uno stile colloquiale e naturale. Un altro agente AI valuta l’accuratezza della diagnosi finale resa dal modello linguistico di grandi dimensioni. Gli esperti umani valutano quindi i risultati di ciascun incontro per determinare la loro capacità di raccogliere informazioni rilevanti sul paziente, l’accuratezza diagnostica quando vengono presentate informazioni sparse e la conformità ai suggerimenti.
I ricercatori hanno utilizzato CRAFT-MD per testare quattro modelli di intelligenza artificiale –; sia proprietari che commerciali e open Source –; per le sue prestazioni in 2.000 vignette cliniche riguardanti condizioni comuni nelle cure primarie e in 12 specialità mediche.
Tutti i modelli di intelligenza artificiale presentavano limitazioni, inclusa la capacità di condurre conversazioni cliniche e ragionare sulla base delle informazioni fornite dai pazienti. Ciò, a sua volta, ha compromesso la loro capacità di raccogliere l’anamnesi medica e fare una diagnosi corretta. Ad esempio, i modelli spesso faticavano a porre le domande giuste per raccogliere l’anamnesi rilevante del paziente, perdevano informazioni critiche durante l’acquisizione dell’anamnesi e avevano difficoltà a sintetizzare informazioni sparse. L’accuratezza di questi modelli diminuiva quando venivano presentate informazioni aperte piuttosto che risposte a scelta multipla. Questi modelli hanno anche ottenuto risultati peggiori quando sono impegnati in scambi avanti e indietro – ; come lo sono la maggior parte delle conversazioni nel mondo reale – ; piuttosto che quando sei impegnato in conversazioni riassuntive.
Raccomandazioni per ottimizzare le prestazioni dell’intelligenza artificiale nel mondo reale
Sulla base di questi risultati, il team offre una serie di raccomandazioni sia per gli sviluppatori di intelligenza artificiale che progettano modelli di intelligenza artificiale, sia per gli enti regolatori responsabili della valutazione e dell’approvazione di questi strumenti.
Questi includono:
- Utilizzo di domande conversazionali aperte che riflettano in modo più accurato le interazioni non strutturate medico-paziente nella progettazione, formazione e test degli strumenti di intelligenza artificiale
- Valutare i modelli in base alla loro capacità di porre le domande giuste ed estrarre le informazioni più essenziali
- Modelli di progettazione in grado di seguire molteplici conversazioni e di integrare le informazioni da esse
- Progettare modelli di intelligenza artificiale in grado di integrare dati testuali (note di conversazione) e non testuali (immagini, ECG)
- Progetta agenti IA più sofisticati in grado di interpretare segnali non verbali come espressioni facciali, tono e linguaggio del corpo
Inoltre, raccomandano i ricercatori, la valutazione dovrebbe includere sia agenti di intelligenza artificiale che esperti umani, perché affidarsi esclusivamente a esperti umani è dispendioso in termini di manodopera e costoso. Ad esempio, CRAFT-MD ha sovraperformato i valutatori umani, elaborando 10.000 conversazioni in 48-72 ore, più 15-16 ore di valutazione di esperti. Al contrario, gli approcci basati sull’uomo richiederebbero un ampio reclutamento e circa 500 ore per le simulazioni dei pazienti (quasi 3 minuti per conversazione) e circa 650 ore per le valutazioni di esperti (quasi 4 minuti per conversazione). L’utilizzo di valutatori di intelligenza artificiale in prima linea ha l’ulteriore vantaggio di eliminare il rischio di esporre pazienti reali a strumenti di intelligenza artificiale non verificati.
I ricercatori hanno affermato di aspettarsi che anche lo stesso CRAFT-MD venga aggiornato e ottimizzato periodicamente per incorporare modelli migliorati di intelligenza artificiale dei pazienti.
“Come medico scienziato, sono interessato ai modelli di intelligenza artificiale che possono migliorare la pratica clinica in modo efficiente ed etico”, ha affermato la co-autrice senior dello studio Roxana Daneshjou, assistente professore di scienza dei dati biomedici e dermatologia presso l’Università di Stanford. «CRAFT-MD crea un quadro che riflette più da vicino le interazioni del mondo reale e quindi aiuta a far avanzare il campo quando si tratta di testare le prestazioni dei modelli di intelligenza artificiale nel settore sanitario». »