COMET, un nuovo framework di apprendimento automatico, integra dati EHR e analisi omiche utilizzando il transfer learning, migliorando significativamente la modellazione predittiva e scoprendo informazioni biologiche da piccoli gruppi.
Studio: un approccio di apprendimento automatico per sfruttare le cartelle cliniche elettroniche per un’analisi omica avanzata. Credito immagine: LeoWolfert/Shutterstock
In un recente studio pubblicato sulla rivista Intelligenza delle macchine naturaliI ricercatori hanno presentato analisi cliniche e omiche multimodali potenziate dal transfer learning (COMET), un protocollo di deep learning e transfer learning.
I progressi tecnologici nel campo omico hanno rivoluzionato la comprensione biologica. Saggi proteomici, metabolici, trascrittomici e di altro tipo hanno consentito una stima economicamente vantaggiosa degli analiti nello stesso campione. Sebbene questi test generino dati ad alta dimensione, i vincoli di bilancio e clinici limitano la dimensione delle coorti omiche. Pertanto, sono necessari approcci innovativi per potenziare l’analisi dei dati ad alta dimensione.
Sebbene i metodi statistici gestiscano i falsi positivi, esistono meno metodi di machine learning (ML). Alcuni approcci si basano sul trasferimento di apprendimento, una tecnica in cui un modello ML viene appreso da un set di dati di pre-addestramento che viene quindi utilizzato per studiare un set di dati più piccolo. Sebbene metodi più moderni di deep learning siano stati applicati ai quadri statistici, si basano principalmente sull’apprendimento solo da metadati informativi o dati omici.
Il quadro COMET supera queste limitazioni integrando la pre-formazione su grandi set di dati di cartelle cliniche elettroniche (EHR) e combinando strategie di fusione precoce e tardiva, consentendo così migliori prestazioni predittive e scoperte biologiche.
Lo studio e i risultati
Nel presente studio, i ricercatori hanno presentato COMET, un protocollo di deep learning e transfer learning che migliora le analisi omiche. COMET potrebbe essere applicato quando le cartelle cliniche elettroniche (EHR) e i dati omici saranno disponibili per un gruppo sempre più piccolo. COMET include un metodo per integrare dati EHR longitudinali, pre-formazione e modellazione multimodale.
COMET prevede un modello ML addestrato solo su dati EHR i cui pesi saranno trasferiti a un’architettura multimodale addestrata e valutata su un campione più piccolo con dati omici e EHR. Innanzitutto, COMET è stato applicato per prevedere i giorni prima dell’inizio del travaglio in una coorte di gravidanze di oltre 30.904 individui della Stanford Healthcare. Circa 61 donne incinte (coorte omica) hanno ricevuto più campioni di plasma durante gli ultimi giorni di gravidanza, che sono stati utilizzati per generare un set di dati proteomici che misuravano 1.317 proteine.
EL’input per COMET è costituito da dati EHR e (per un sottoinsieme di pazienti) dati omics tabulari accoppiati. I pazienti che dispongono solo di dati EHR vengono utilizzati per pre-addestrare (PT) una rete neurale per prevedere gli esiti dei pazienti utilizzando solo dati EHR. I pesi di questa rete DSE vengono trasferiti a una rete neurale multimodale utilizzata per analizzare sia i dati DSE che quelli omici; la rete neurale viene utilizzata per la modellazione predittiva e l’analisi di rete post-hoc viene utilizzata per la scoperta biologica. Il quadro COMET è flessibile e può essere utilizzato per prevedere qualsiasi risultato continuo o binario. BI vettori codificati one-hot dei dati DSE (mostrati in bianco) vengono convertiti in incorporamenti (mostrati in blu) utilizzando word2vec; delle integrazioni per ciascun codice che si verificano durante un particolare giorno viene calcolata la media per calcolare le integrazioni sequenziali e riepilogative. CCOMET utilizza un’architettura multimodale di deep learning per analizzare sia i dati EHR che i dati omics. Durante la fase di pre-formazione vengono utilizzati solo i dati EHR; l’architettura di base è una RNN con unità ricorrenti chiuse. Dopo il pre-addestramento, i pesi RNN vengono congelati e trasferiti in un’architettura multimodale che analizza sia i dati EHR che quelli omics.
I dati EHR dall’inizio della gravidanza attraverso il prelievo di sangue sono stati utilizzati per prevedere i giorni prima dell’inizio del travaglio. Dopo la formazione preliminare solo sui dati EHR (su 30.843 individui), i pesi sono stati trasferiti a una rete multimodale addestrata a fare previsioni sulla coorte omica. Il modello ha raggiunto un coefficiente di correlazione di Pearson di 0,868 (intervallo di confidenza al 95% (0,825, 0,900)), dimostrando la sua forte capacità predittiva. È stata riscontrata una forte correlazione tra il numero previsto di giorni fino all’inizio del travaglio e il numero effettivo di giorni fino all’inizio del travaglio, indicando che COMET era molto accurato in piccole coorti con dati multidimensionali.
Successivamente, COMET è stato confrontato con i modelli di base utilizzando solo dati proteomici, dati EHR o entrambi. Questi modelli di base utilizzavano solo dati di coorte omici senza pre-addestramento. Il modello base esclusivamente DSE ha mostrato la performance peggiore, raggiungendo una correlazione di 0,768, mentre il modello esclusivamente proteomico ha ottenuto risultati leggermente migliori attestandosi a 0,796. Il Common Reference Model è risultato il migliore tra i modelli di riferimento, con una correlazione pari a 0,815, pur essendo comunque inferiore a COMET.
Per ottenere informazioni più approfondite, i ricercatori hanno utilizzato l’embedding stocastico dei vicini distribuiti su T (t-SNE) per visualizzare i dati multimodali proiettando la matrice di correlazione in due dimensioni, rivelando gruppi significativi di caratteristiche basati sui loro modelli di correlazione. Le caratteristiche vicine mostrano correlazioni simili con tutte le altre variabili nello spazio. Questi gruppi sono stati annotati in base ai concetti medici che le caratteristiche EHR o proteiche rappresentano all’interno di ciascun gruppo. Varie proteine hanno mostrato correlazioni significative con le variabili DSE.
Il team ha calcolato l’importanza delle caratteristiche di ciascuna proteina. Le proteine identificate come altamente significative nei modelli COMET erano correlate allo sviluppo fetale, alle complicanze della gravidanza e all’età gestazionale, in linea con le conoscenze biologiche consolidate. Successivamente, COMET è stato applicato a una coorte di tumori della Biobank del Regno Unito per prevedere la mortalità per cancro a tre anni. I partecipanti erano tutti pazienti con diagnosi di cancro entro cinque anni dall’arruolamento.
Un sottogruppo di partecipanti aveva campioni di sangue che sono stati analizzati per ottenere dati proteomici. Sono stati inclusi nella coorte omica se i campioni erano stati raccolti entro 1 anno dalla diagnosi di cancro. COMET ha ottenuto risultati costantemente superiori nel predire la mortalità per cancro a tre anni rispetto a tutte le linee di base, con un’area sotto la curva caratteristica operativa del ricevitore (AUROC) di 0,842, superando significativamente la linea di base comune (AUROC 0,786) e i modelli a modalità singola. La prevalenza della mortalità a tre anni nella coorte omica è stata del 5,5%.
Inoltre, t-SNE è stato utilizzato per visualizzare la matrice di correlazione, che ha rivelato una minore sovrapposizione tra le modalità dei dati DSE e proteomici, a differenza dei dati sull’inizio del travaglio. Tuttavia, sono emerse correlazioni significative tra DSE e modalità di dati proteomici quando è stata visualizzata la rete di correlazione, con ciascuna modalità proiettata individualmente in due dimensioni. La proteina 2, simile al fattore di mortalità 4, aveva le correlazioni più forti con le caratteristiche dell’EHR, in particolare le prescrizioni di farmaci, evidenziando il suo potenziale come biomarcatore prognostico.
Una grande percentuale di proteine provenienti da pazienti affetti da cancro (66%) non ha mostrato alcuna correlazione con alcuna variabile EHR. Inoltre, i ricercatori hanno stimato la correlazione tra ciascuna caratteristica DSE e tutte le proteine, nonché la correlazione massima tra tutte le proteine per ciascuna caratteristica DSE. Ciò ha rivelato molte caratteristiche delle cartelle cliniche elettroniche con basse correlazioni con le proteine nei pazienti affetti da cancro, evidenziando il valore di includere più modalità di dati.
Proteine che mostrano maggiore importanza nei modelli COMET e allineate con noti biomarcatori prognostici del cancro. È importante sottolineare che le nove proteine più significative nei modelli COMET sono state statisticamente associate allo stato di mortalità, convalidando così la rilevanza biologica del modello.
Conclusioni
In sintesi, lo studio ha illustrato la capacità di COMET di potenziare la modellazione predittiva in molteplici attività attraverso la pre-formazione e il trasferimento dell’apprendimento. COMET ha prodotto modelli meglio regolarizzati, che riflettevano in modo più accurato la biologia conosciuta. Inoltre, i modelli COMET hanno identificato proteine biologicamente rilevanti per specifici risultati sanitari.
Nei modelli di travaglio precoce, COMET ha rivelato proteine cruciali per le complicazioni della gravidanza, la regolazione immunitaria e lo sviluppo della placenta, con valori di correlazione di Pearson che supportano la sua forza predittiva. Per quanto riguarda la mortalità per cancro, le proteine identificate erano quelle coinvolte nella proliferazione tumorale e nella modulazione del microambiente. Nel complesso, COMET fornisce una base per delineare le complesse relazioni tra fenotipi clinici e meccanismi molecolari.