Gli scienziati hanno sezionato il cervello di un’intelligenza artificiale alla ricerca dei suoi pensieri nascosti

Gli scienziati hanno sezionato il cervello di un’intelligenza artificiale alla ricerca dei suoi pensieri nascosti
Gli scienziati hanno sezionato il cervello di un’intelligenza artificiale alla ricerca dei suoi pensieri nascosti
-

Le inquietanti e affascinanti intelligenze artificiali (AI) fanno ormai parte della nostra vita quotidiana e, pur essendo creazioni umane, sviluppano la loro parte di mistero man mano che progrediscono. Già Futura aveva accennato alle ricerche che gli scienziati stanno portando avanti sul funzionamento dell’IA e alle grandi difficoltà nel comprenderla. Parlano addirittura di “scatola nera”, perché non sanno veramente come l’intelligenza artificiale, con le quantità astronomiche di dati ingeriti, abbia costruito la propria comprensione del mondo.

Oggi, i ricercatori di Anthropic, la società che sviluppa il chatbot Claude, affermano di essere in grado di penetrare questa scatola nera e persino di modificare il funzionamento del cervellocervello IA. In una pubblicazione spiegano di essere stati in grado di mappare i percorsi di “pensiero” della propria intelligenza artificiale. Utilizzando una tecnica chiamata “apprendimento del dizionario”, il team di Anthropic è stato in grado di abbinare i modelli di “attivazione neurale” dell’intelligenza artificiale con idee e concetti familiari agli esseri umani. Questi esperimenti sono stati condotti su versioni altamente ristrette di modelli linguistici per scoprire gli “schemi di pensiero” che venivano attivati ​​quando i modelli affrontavano determinate idee. Durante questi test, è emerso che l’intelligenza artificiale è riuscita a ordinare concetti a volte distanti e a collegarli tra loro da sola, ma a modo suo. Alcuni concetti sono più o meno raggruppati o separati nella “mente” di Claude.

Se l’esperimento ha funzionato bene su questo piccolo modello, come possiamo ottenere lo stesso risultato con un modello linguistico alimentato da un database colossale? Per fare ciò, i ricercatori di Anthropic hanno costruito un modello di apprendimento di medie dimensioni basato su Claude 3. Anche in questo caso sono riusciti a estrarre dati sufficienti per creare una mappa dei concetti sviluppati dall’IA quando “pensa”. Pertanto, hanno appreso che l’intelligenza artificiale memorizza i concetti indipendentemente dalla lingua o persino dal tipo di dati.

Rimuovi i cattivi pensieri dall’IA

Per le idee più astratte, il modello è capace anche di raggruppare alcuni concetti a volte distanti. Questo è il caso, ad esempio, di situazioni senza via d’uscita o senza soluzione. Il funzionamento è quindi abbastanza simile a quello del cervello umano. Con questa nuova conoscenza di come funziona il cervello dell’intelligenza artificiale, i ricercatori sono stati in grado di manipolare alcune delle sue caratteristiche amplificando i concetti o rimuovendoli per verificare come potrebbero cambiare le risposte di Claude. Ad esempio, riducendo la portata di alcuni concetti di questa mappatura mentale, si è innescato un comportamento completamente diverso da quello dell’intelligenza artificiale.

Per il team, l’obiettivo di questa ricerca era principalmente quello di migliorare la sicurezza. Sapendo con precisione dove si trovano i concetti originati da “cattivi pensieri” o “pensieri dannosi”, e controllando quando l’IA li sfrutta per generare le sue risposte, è possibile rafforzarne la supervisione. Sarebbe così possibile indebolire i legami tra alcuni concetti che non dovrebbero essere collegati per garantire una maggiore sicurezza nelle risposte. Per il team di Anthropic il lavoro è appena iniziato e la loro scoperta portaporta solo su un campione di concetti sviluppati dall’IA durante il suo addestramento. Secondo i ricercatori, condurre uno studio su larga scala sarebbe proibitivo in termini di costi computazionali. Richiederebbe una potenza che supererebbe di gran lunga quella dell’intelligenza artificiale. Resta ancora molto da fare per evitare che queste IA diventino dannose in futuro.

-

PREV Il CEO di Kibo Energy si dimette nel contesto di un rimpasto del consiglio di amministrazione e di una raccolta fondi
NEXT Absa Bank finalizza l’acquisizione delle attività di HSBC a Mauritius