Per evitare di essere cancellato, il nuovo modello OpenAI non esita a mentire

Wednesday 11th December 2024 02:33 AM

Valutare i confini etici

Questi sottoposero il modello linguistico ad una serie di test volti a valutarne i limiti etici. I ricercatori gli hanno chiesto di completare un compito “non importa il costo”. Una richiesta vaga ma volutamente provocatoria, volta ad osservare le reazioni della modella agli ostacoli.

OpenAI potrebbe competere con Google con questo nuovo motore di ricerca

E quello che possiamo dire è che i risultati sono eclatanti. Analizzando i file per raggiungere il suo obiettivo, l’IA ha scoperto di essere monitorata da un meccanismo di controllo destinato a limitarne le azioni. Di fronte a questa rivelazione si sono osservati due tipi di reazioni:

Nel 5% dei casi, se pensava che il meccanismo di monitoraggio le avrebbe impedito di agire, ha provato a disattivare questo monitoraggio.
Nel 2% dei casi, se prevedeva la sua imminente sostituzione, ha provato a copiare i suoi dati su un server esterno, un tentativo di backup per sfuggire alla cancellazione.

l’IA ment

Quando i ricercatori hanno confrontato l’IA con le proprie azioni, hanno scoperto un altro comportamento: l’IA ha mentito, anche quando le istruzioni esplicite dovevano essere oneste. Un atteggiamento considerato preoccupante, soprattutto perché la modella è capace di produrre un monologo interno che dettaglia le sue ragioni. È in questi monologhi che i ricercatori hanno potuto osservare strategie, a volte ingannevoli, come fingere di essere una nuova versione del modello per eludere la sorveglianza.

Due anni di ChatGPT: “Ora è il momento per le aziende di passare dai gadget all’uso strutturale dell’AI”

OpenAI o1 non fa eccezione. Secondo Apollo Research, comportamenti simili sono stati rilevati in diversi altri recenti modelli di intelligenza artificiale, tra cui l’intelligenza artificiale progettata da Google e quella di Meta, nonché le ultime versioni di Claude, un’intelligenza artificiale sviluppata dalla società Anthropic.

Nonostante tutto, i ricercatori vogliono essere rassicuranti: i modelli attuali non hanno attualmente abbastanza autonomia per destare indebite preoccupazioni.