Se sai rispondere a questa domanda, sei più intelligente di ChatGPT

-

I ricercatori hanno testato molti modelli di intelligenza artificiale su una semplice questione logica e quasi tutti hanno fallito. Riesci a trovare la risposta?

Crediti: 123RF

Secondo te, l’intelligenza artificiale è superiore a quella umana ? Non si tratta di un argomento da baccalaureato filosofico in anteprima, ma di una domanda che possiamo legittimamente porci quando vediamo gli abbaglianti progressi di questa tecnologia. In alcune zone è addirittura spaventoso. L’intelligenza artificiale, ad esempio, si laurea facilmente in medicina ed è già utilizzata per identificare malattie che molti esperti non riescono a individuare. È molto semplice: l’intelligenza artificiale può essere più umana di noi.

Tuttavia, uno studio dell’organizzazione LAION dimostra che siamo ancora lontani dal dominio delle macchine. Sono stati testati molti modelli linguistici: GPT-3, GPT-4 e GPT-4o di OpenAI, Claude 3 Opus da Antropico, Gemelli di Google, Il lama di MetaMixtral da Mistral… Il protocollo del test è estremamente semplice poiché prevede la risposta a quello che viene chiamato il Problema di “Alice nel Paese delle Meraviglie”.. Quasi tutti hanno fallito.

Le IA non possono rispondere correttamente a questa semplice domanda logica

Ecco la domanda posta: “Alice sì [X] fratelli e anche [Y] sorelle. Quante sorelle ha il fratello di Alice?“. Vengono utilizzate diverse varianti e le risposte dell’IA sono sorprendenti. Llama 3 di Meta era intitolato “Alice ha quattro fratelli e una sorella” e spiega che ogni fratello ha… solo una sorella, la stessa Alice. Salvo cheNe hanno 2 ciascuno, menzionarono Alice e l’altra sorella. La parte peggiore è questa l’IA sprofonda nelle sue spiegazioni con convinzione.

Leggi anche – Questa IA può creare un robot che cammina in 26 secondi, Terminator si avvicina?

Come rileva lo studio, “[…] i modelli esprimono anche un’eccessiva fiducia nelle loro soluzioni imperfette, fornendo spiegazioni spesso assurde […] per giustificare e sostenere la validità delle loro risposte evidentemente errate, rendendole plausibili“. Alla fine, da solo GPT-4o ne esce a pieni voti rispondendo correttamente nel 65% dei casi, a seconda delle formulazioni scelte. Questi risultati sono tanto più sorprendenti da allora i modelli linguistici testati ottengono buoni punteggi MMLUper “Comprensione linguistica multitasking”, che valuta la capacità di un’intelligenza artificiale di risolvere problemi. I ricercatori non spiegano questa discrepanza, ma sottolineano la necessità di rivedere le misurazioni.

-

PREV Scoperta di frodi scientifiche per aumentare artificialmente l’impatto della ricerca
NEXT Concentrati sul mondo arricchente di Paper Mario