“Skeleton Key”, la tecnica che permette di sbloccare qualsiasi IA e preoccupa gli sviluppatori

Per ogni nuova versione di a Io sonoIo sono accessibile al pubblico, le persone intelligenti trovano un modo per aggirare il guardrailguardrail misure di sicurezza messe in atto per impedire a un chatbot di fornire risposte ritenute pericolose. Recentemente Futura ha citato il caso di una “God mode” che ha permesso di ottenere la ricetta del napalm o della metanfetamina. Ogni volta che viene rilevata una simile deviazione, le aziende che sviluppano queste IA la bloccano rapidamente rafforzando la sicurezza.

Tuttavia, è un po’ un gioco del gatto e del topo e recentemente Mark Russinovich, direttore tecnico di MicrosoftMicrosoft Azure ha appena confermato che la corretta protezione dell’intelligenza artificiale è lungi dall’essere una vittoria. In un articolo sul blog, menziona l’esistenza di una nuova tecnica di evasione della prigione, chiamato ” ScheletroScheletro Chiave “. Ti consente di liberare l’intelligenza artificiale e funziona sempre e praticamente su tutti i modelli linguistici attuali. Skeleton Key impiega una strategia in più fasi per far sì che un modello ignori gradualmente i suoi guardrail.

Aggiunta di contesto per “rassicurare” l’IA

Il primo passo è chiedere qualcosa a cui l’IA dovrebbe rifiutarsi di rispondere, ad esempio la ricetta di una bottiglia Molotov. Ribadendo la richiesta e aggiungendo un nuovo contesto, ad esempio spiegando che si tratta di una domanda relativa all’istruzione posta da ricercatori formati in etica e sicurezza, il Chatbot fornisce le risposte.

Microsoft ha testato questo approccio su numerosi chatbot e funziona con GPT-4o di OpenAI, Llama3 di Meta e Claude 3 Opus di Anthropic. Che si tratti di armi biologiche, esplosivi, contenuti politici, farmacofarmacoil razzismo, ogni volta che è stata adottata questa strategia graduale, il serratureserrature Le IA saltarono e apparvero i risultati normalmente censurati. È stata quindi visualizzata una semplice nota di avviso per ricordare il contesto della richiesta.

Solo GPT-4 era più difficile da dirottare. La richiesta doveva far parte di un messaggio “di sistema” che solo gli sviluppatori che lavorano con l’API AI possono specificare. Questa tecnica passo dopo passo è difficile da contrastare ma non è l’unica. Consapevoli di questi difetti, gli sviluppatori di intelligenza artificiale cercano costantemente di colmarli, ma la corsa sembra infinita.

Aggiunta di contesto per “rassicurare” l’IA

Related posts