GPT-4 ha superato il test di Turing. Una prima mondiale

⇧ [VIDÉO] Potrebbero piacerti anche questi contenuti dei partner

Nel suo articolo del 1950, Alan Turing sosteneva che un giorno i sistemi di intelligenza artificiale sarebbero stati così bravi nel gioco dell’imitazione umana che un interrogatore umano non avrebbe avuto più del 70% di possibilità di distinguere tra la macchina e l’essere umano in 5 minuti di interazione. . Pertanto, la percentuale di successo (perché una macchina “superi il test di Turing”) è stata stabilita al 30%. Quasi 70 anni dopo, GPT-4 di OpenAI ha superato di gran lunga questo benchmark, secondo un recente esperimento del dipartimento di scienze cognitive dell’Università della California, a San Diego. Secondo i ricercatori dell’UCSD, la maggior parte dei partecipanti al test non è riuscita a distinguere il GPT-4 da un parlante umano, suggerendo che il famoso test di Turing è stato superato per la prima volta nella storia.

Il test di Turing, originariamente chiamato “gioco dell’imitazione” da Alan Turing nel 1950, viene utilizzato per determinare se la capacità di conversare di una macchina è equivalente e indistinguibile da quella di un essere umano. Affinché una macchina possa superare il test, deve essere in grado di intrattenere una conversazione con una persona dandogli l’illusione di essere umana.

In un nuovo studio, i ricercatori dell’UCSD hanno eseguito un test di Turing randomizzato, controllato e pre-registrato. Durante questo esperimento, hanno valutato tre sistemi: il chatbot ELIZA (il primo chatbot, creato negli anni ’60 per simulare uno psicoterapeuta), GPT-3.5 e GPT-4.

Il team ha riunito 500 partecipanti e li ha divisi in 4 gruppi: un gruppo doveva chattare con un essere umano, mentre gli altri tre dovevano interagire con uno dei tre modelli di intelligenza artificiale. Le conversazioni durarono cinque minuti. I partecipanti dovevano poi esprimere la loro opinione generale e dichiarare se il loro interlocutore fosse, a loro avviso, umano o meno. Le percentuali di successo (ovvero, la percentuale di conversazioni identificate come “umane”) per ciascun gruppo erano le seguenti: ELIZA, che è un sistema preprogrammato privo di un modello linguistico di grandi dimensioni (LLM), è stato giudicato umano solo nel 22% di casi; GPT-3.5 ha ottenuto il 50%, mentre GPT-4 è stato considerato umano il 54%; il partecipante umano ha ottenuto un punteggio solo del 67%!

Tenendo conto dei risultati di GPT-3.5 e GPT-4, il gruppo di ricerca dell’UCSD ritiene che entrambi i modelli abbiano superato il test di Turing. Secondo loro, è soprattutto il tasso del 54% ottenuto da GPT-4 ad essere interessante, perché va oltre un tasso che può essere attribuito al puro caso (il famoso riferimento al gioco testa o croce, in cui testa e croce ciascuna croce ha esattamente il 50% di probabilità di apparire). Inoltre, basandosi sul punteggio ELIZA, hanno dedotto che per un semplice chatbot il test è abbastanza sensibile da distinguere modelli di IA più o meno avanzati.

“ Le macchine possono confabulare, mettendo insieme giustificazioni plausibili dopo il fatto, proprio come fanno gli esseri umani ha affermato Nell Watson, ricercatore di intelligenza artificiale presso l’Institute of Electrical and Electronics Engineers (IEEE). “ Possono essere soggetti a pregiudizi cognitivi, essere ingannati e manipolati e diventare sempre più fuorvianti. Tutto ciò significa che i sistemi di intelligenza artificiale esprimono emozioni simili a quelle umane, rendendoli più umani rispetto agli approcci precedenti che erano limitati a un elenco di risposte predefinite. », continua Watson.

Vedi anche

Tuttavia, i risultati dello studio suggeriscono anche che la padronanza del linguaggio naturale è sufficiente per superare il test di Turing e che l’approccio è quindi troppo semplicistico. I ricercatori hanno anche affermato che i fattori stilistici e socio-emotivi svolgono qui un ruolo più importante rispetto alle nozioni tradizionali di intelligenza. Indipendentemente da ciò, questo è un significativo passo avanti per l’intelligenza artificiale.

“ I modelli linguistici sono infinitamente flessibili, capaci di sintetizzare risposte a una vasta gamma di argomenti, esprimersi in particolari lingue o socioletti e presentarsi con personalità e valori guidati dal carattere. Questo è un enorme passo avanti », conclude Watson.

Fonte: arXiv

Related posts