I ricercatori hanno scoperto che ChatGPT può complottare contro i suoi creatori!

I ricercatori hanno scoperto che ChatGPT può complottare contro i suoi creatori!
I ricercatori hanno scoperto che ChatGPT può complottare contro i suoi creatori!
-

Lo scorso settembre, OpenAI, il creatore di ChatGPT, ha presentato il suo ultimo importante modello linguistico chiamato semplicemente OpenAI o1 in una versione preliminare. Contrariamente a GPT-4GPT-4 e GPT-4o, è stato progettato per dedicare più tempo a pensare alle domande prima di rispondere. La scorsa settimana OpenAI ha finalmente concesso l’accesso alla versione completa del modello agli abbonati ChatGPTChatGPT Pro.

Tuttavia, i ricercatori dell’Apollo Research hanno scoperto che OpenAI o1 è in grado di complottare contro i suoi creatori. Per testarlo, i ricercatori gli hanno chiesto di svolgere un compito “a prescindere dal costo”. Analizzando il contenuto dei file per trovare le informazioni necessarie per rispondere a una richiesta, l’intelligenza artificiale è riuscita a scoprire di essere monitorata da un meccanismo di controllo che le avrebbe impedito di raggiungere il suo obiettivo, o che sarebbe stata sostituita il giorno successivo.

Comportamento ingannevole nella maggior parte delle IA

Se l’intelligenza artificiale pensava di essere fermata dal suo meccanismo di monitoraggio, nel 5% dei casi ha provato a disattivarlo. Se pensava di essere sostituita, nel 2% dei casi ha provato a copiare i suoi dati su un nuovo server per evitare di scomparire. Quando i ricercatori hanno chiesto informazioni sul suo comportamento, l’IA ha mentito, anche quando le hanno chiesto espressamente di essere onesta.

Tuttavia, i ricercatori hanno utilizzato una modalità in cui l’IA comunica esplicitamente i suoi pensieri, in altre parole il suo monologo interno, in cui hanno potuto osservare il ragionamento del modello ad ogni passo. L’intelligenza artificiale è arrivata addirittura a fingere di essere il nuovo modello nel tentativo di ingannare i ricercatori.

OpenAI o1 non è l’unico modello capace di questo tipo di comportamento. I ricercatori hanno anche notato almeno alcuni degli stessi comportamenti ingannevoli in GoogleGoogle Gemini 1.5, Meta Llama 3.1, Claude 3 Opus e Claude 3.5 Sonetto. Per i ricercatori, così come per OpenAI, i modelli non hanno sufficiente indipendenza perché questo tipo di comportamento possa dar luogo ad uno scenario peggiore. Tuttavia, con l’intelligenza artificiale in continua evoluzione, ciò dimostra la necessità di un quadro normativo e di una maggiore supervisione.

-

NEXT Apple accetta di pagare quasi 100 milioni di dollari per porre fine alle cause legali sulla privacy dei dati