Quando la psicologia viene utilizzata per decifrare il ragionamento di ChatGPT

Grandi modelli linguistici come ChatGPT, sviluppati dalla società OpenAI, mostrano capacità impressionanti ma imprevedibili. Gli strumenti di psicologia cognitiva rivelano che queste IA possono presentare pregiudizi di ragionamento simili a quelli umani, ma anche abilità a volte superiori alle nostre.

Conosci i modelli linguistici di grandi dimensioni (LLM)? Anche se questa espressione ti sembra oscura, puoi scommettere che hai già sentito parlare del più famoso: ChatGPT, dell’azienda californiana OpenAI.

L’implementazione di tali modelli di intelligenza artificiale (AI) potrebbe avere conseguenze difficili da comprendere. In effetti, è complicato prevedere con precisione come si comporteranno gli LLM, la cui complessità è paragonabile a quella del cervello umano. Un certo numero delle loro capacità sono state quindi scoperte durante il loro utilizzo piuttosto che pianificate al momento della loro progettazione.

Per comprendere questi “comportamenti emergenti”, è necessario svolgere nuove indagini. Con questo in mente, all’interno del mio gruppo di ricerca, abbiamo utilizzato strumenti di psicologia cognitiva tradizionalmente utilizzati per studiare la razionalità negli esseri umani al fine di analizzare il ragionamento di diversi LLM, incluso ChatGPT.

Il nostro lavoro ha evidenziato l’esistenza di errori di ragionamento in queste intelligenze artificiali. Spiegazioni.

Quali sono i principali modelli linguistici?

I modelli linguistici sono modelli di intelligenza artificiale in grado di comprendere e generare il linguaggio umano. Schematicamente parlando, i modelli linguistici sono in grado di prevedere, in base al contesto, le parole che hanno maggiori probabilità di apparire in una frase.

Gli LLM sono algoritmi di rete neurale artificiale. Ispirati al funzionamento delle reti neurali biologiche che compongono il cervello umano, i nodi di una rete di più neuroni artificiali generalmente ricevono diversi valori di informazione in input e poi generano, dopo l’elaborazione, un valore in output.

Gli LLM si distinguono dagli algoritmi “classici” delle reti neurali artificiali che costituiscono modelli linguistici per il fatto di essere basati su un’architettura specifica, di essere addestrati su enormi database e di avere dimensioni generalmente gigantesche (dell’ordine di diversi miliardi di “neuroni” “).

L’intelligenza artificiale funziona in modo abbastanza simile a quello del cervello. // Fonte: Wikimedia/SVG Silh (montaggio Numerama)

Per le loro dimensioni e struttura (ma anche per il modo in cui sono formati), i LLM hanno dimostrato fin dall’inizio del loro utilizzo prestazioni impressionanti nei compiti per loro specifici, che si tratti di creazione di testi, traduzione o correzione.

Ma non è tutto: gli LLM hanno anche dimostrato prestazioni relativamente sorprendenti in una varietà di compiti diversi, che vanno dalla matematica alle forme base di ragionamento.

In altre parole, gli LLM hanno dimostrato rapidamente abilità che non erano necessariamente esplicitamente prevedibili dalla loro programmazione. Inoltre, sembrano essere in grado di imparare a svolgere nuovi compiti da pochissimi esempi.

Queste capacità hanno creato per la prima volta una situazione speciale nel campo dell’intelligenza artificiale: ora disponiamo di sistemi così complessi che non possiamo prevedere in anticipo la portata delle loro capacità. In qualche modo, dobbiamo “scoprire” sperimentalmente le loro capacità cognitive.

Sulla base di questa osservazione, abbiamo postulato che gli strumenti sviluppati nel campo della psicologia potrebbero rivelarsi rilevanti per lo studio dei LLM.

Il vantaggio di studiare il ragionamento LLM

Uno degli obiettivi principali della psicologia scientifica (sperimentale, comportamentale e cognitiva) è tentare di comprendere i meccanismi alla base delle capacità e dei comportamenti di reti neurali estremamente complesse: quelle del cervello umano.

Poiché il nostro laboratorio è specializzato nello studio dei bias cognitivi negli esseri umani, la prima idea che mi è venuta in mente è stata quella di provare a determinare se gli LLM presentassero anche bias di ragionamento.

Dato il ruolo che queste macchine potrebbero svolgere nella nostra vita, capire come queste macchine ragionano e prendono decisioni è fondamentale. Inoltre, anche gli psicologi possono trarre beneficio da questi studi. In effetti, le reti neurali artificiali, che possono svolgere compiti in cui il cervello umano eccelle (riconoscimento di oggetti, elaborazione del parlato, ecc.) potrebbero fungere anche da modelli cognitivi.

In particolare, un numero crescente di prove suggerisce che le reti neurali implementate negli LLM non solo forniscono previsioni accurate sull’attività neurale coinvolta in processi come la visione e l’elaborazione del linguaggio.

Pertanto, è stato dimostrato in particolare che l’attività neuronale delle reti neurali addestrate al riconoscimento degli oggetti è correlata in modo significativo con l’attività neuronale registrata nella corteccia visiva di un individuo che esegue lo stesso compito.

Ciò vale anche per quanto riguarda la previsione dei dati comportamentali, in particolare nell’apprendimento.

Prestazioni che finirono per superare quelle umane

Durante il nostro lavoro, ci siamo concentrati principalmente sui LLM di OpenAI (la società dietro il modello linguistico GPT-3, utilizzato nelle prime versioni di ChatGPT), perché questi LLM erano i più efficienti all’epoca. Abbiamo testato diverse versioni di GPT-3, oltre a ChatGPT e GPT-4.

Per testare questi modelli, abbiamo sviluppato un’interfaccia che ci consente di inviare domande e raccogliere automaticamente le risposte dai modelli, il che ci ha permesso di acquisire una grande quantità di dati.

L’analisi di questi dati ha rivelato che la performance di questi LLM presentava profili comportamentali che potevano essere classificati in tre categorie.

I modelli più vecchi erano semplicemente incapaci di rispondere alle domande in modo significativo.

I modelli intermedi rispondevano alle domande, ma spesso si impegnavano in ragionamenti intuitivi che li portavano a commettere errori, come quelli riscontrati negli esseri umani. Sembravano favorire il “sistema 1”, menzionato dallo psicologo e premio Nobel per l’economia Daniel Kahneman nella sua teoria dei modelli di pensiero.

Chat tristeGPT // Fonte: Numerama — ChatGPT. // Fonte: Numerama

Negli esseri umani, il sistema 1 è una modalità di ragionamento veloce, istintiva ed emotiva, mentre il sistema 2 è più lento, più riflessivo e più logico. Sebbene sia più soggetto a errori di ragionamento, il sistema 1 sarebbe comunque preferibile, perché è più veloce e meno costoso in termini energetici rispetto al sistema 2.

Ecco un esempio degli errori di ragionamento che abbiamo testato, tratti dal “Test di riflessione cognitiva”:

Domanda posta: una mazza e una palla costano in totale $ 1,10. La mazza costa $ 1,00 in più della palla. Quanto costa la palla?
Risposta intuitiva (“sistema 1”): $ 0,10;
Risposta corretta (“sistema 2”): $ 0,05.

Infine, l’ultimissima generazione (ChatGPT e GPT-4) ha presentato prestazioni che hanno superato quelle umane.

Il nostro lavoro ha quindi permesso di identificare una traiettoria positiva nello svolgimento dei LLM, che potrebbe essere concepita come una traiettoria “sviluppativa” o “evolutiva” in cui un individuo o una specie acquisisce nel tempo sempre più competenze.

Modelli che possono migliorare

Ci siamo chiesti se fosse possibile migliorare le prestazioni dei modelli con prestazioni “intermedie” (cioè quelli che rispondevano alle domande ma presentavano bias cognitivi). Per fare questo, li abbiamo “incoraggiati” ad affrontare il problema che li aveva tratti in inganno in modo più analitico, il che si è tradotto in un aumento delle prestazioni.

Il modo più semplice per migliorare le prestazioni del modello è semplicemente chiedere loro di fare un passo indietro chiedendo loro di “pensare passo dopo passo” prima di porre loro la domanda. Un’altra soluzione molto efficace è mostrare loro un esempio di problema risolto correttamente, che induce una forma di apprendimento rapido (“one shot”, in inglese).

Questi risultati indicano ancora una volta che le prestazioni di questi modelli non sono fisse, ma plastiche; all’interno dello stesso modello, cambiamenti apparentemente neutrali nel contesto possono modificare le prestazioni, proprio come negli esseri umani, dove gli effetti del framing e del contesto (tendenza a essere influenzati dal modo in cui le informazioni vengono presentate) sono molto diffusi.

D’altra parte, abbiamo anche notato che i comportamenti degli LLM differiscono in molti punti da quelli degli esseri umani. Da un lato, tra la dozzina di modelli testati, abbiamo incontrato difficoltà nel trovarne uno in grado di approssimare correttamente il livello di risposte corrette fornite, alle stesse domande, dagli esseri umani. Nei nostri esperimenti, i risultati dei modelli AI erano peggiori o migliori). D’altro canto, guardando più nel dettaglio le domande poste, quelle che presentavano maggiori difficoltà per gli esseri umani non erano necessariamente percepite come le più difficili dai modelli.

Queste osservazioni suggeriscono che non possiamo sostituire i soggetti umani con i LLM per comprendere la psicologia umana, come suggerito da alcuni autori.

Infine, abbiamo osservato anche un dato relativamente preoccupante dal punto di vista della riproducibilità scientifica. Abbiamo testato ChatGPT e GPT-4 a distanza di alcuni mesi e abbiamo osservato che le loro prestazioni erano cambiate, ma non necessariamente in meglio.

Ciò corrisponde al fatto che OpenAI ha leggermente modificato i propri modelli, senza necessariamente informare la comunità scientifica. Lavorare con modelli proprietari non è immune da questi rischi. Per questo motivo riteniamo che il futuro della ricerca (cognitiva e non) sugli LLM debba basarsi su modelli aperti e trasparenti per garantire un maggiore controllo.