L’intelligenza artificiale ora può auto-replica, un passo critico che preoccupa gli esperti

⇧ [VIDÉO] Potrebbe piacerti anche questo contenuto del partner

Effettuando un’esperienza su due principali modelli linguistici popolari, i ricercatori hanno dimostrato che potrebbero auto-replicarsi senza alcun intervento umano. Questo passaggio potrebbe rappresentare una soglia critica in cui l’IA potrebbe diventare più difficile da controllare e avvisare gli esperti. Il team chiede una collaborazione internazionale per una migliore valutazione del rischio e lo sviluppo di strategie di sicurezza più serie.

La questione se negli anni ’40 possa essere menzionata una tecnologia all’avanguardia è stata menzionata per la prima volta. La capacità di auto-replicazione è spesso considerata il passo critico da cui la tecnologia può
potenzialmente diventare incontrollabile. Tuttavia, la tecnologia digitale avanzata dell’epoca non era ancora sufficientemente avanzata per sollevare problemi di sicurezza.

Nel 2017, di fronte al suo boom abbagliante, migliaia di accademici e grandi nomi nell’industria dell’intelligenza artificiale si sono uniti ai principi di Asilomar che avvertono contro la capacità diAuto-replicazione e auto-miglioramento tecnologia. Ciò potrebbe portare a AIS autonomi che supera l’intelligenza umana, rendendolo potenzialmente incontrollabile. Tra queste personalità ci sono, ad esempio Stephen Hawking, Max Tegmark ed Elon Musk.

« Una volta possibile l’auto-replicazione, una catena di replica di successo può in definitiva portare a una sorta di AI fuori dal controllo dell’uomo », Spiega i ricercatori dell’Università di Fudan, in Cina, in un nuovo studio in preparazione sulla piattaforma arxiv.

Attualmente, l’auto-replicazione è generalmente menzionata come a Linea rossa da non attraversare nelle dichiarazioni di consenso internazionale su IA Sicurezza. Inoltre, le principali aziende di AI, come Openai, Google e Antropic, considerano l’auto-replicazione con un minimo di assistenza umana come uno dei problemi di sicurezza critici della tecnologia.

Nonostante l’ottimismo delle aziende di intelligenza artificiale, i ricercatori dell’Università di Fudan hanno dimostrato che gli attuali modelli di taglio hanno già questa capacità. “” In questo articolo, mostriamo per la prima volta che i sistemi AI esistenti hanno già superato la linea di replica rossa Dicono nel loro documento. “”
L’auto-replicazione di successo senza alcuna assistenza umana è il passo essenziale in modo che l’IA superasse [les humains],
e costituisce un primo segnale per l’intelligenza artificiale dannosa Aggiungono.

Autoreplicazione senza alcuna assistenza umana

Per realizzare la loro esperienza, i ricercatori cinesi hanno utilizzato i modelli Meta e Qwen2.5-72B dei modelli Alibaba Llama31-70B. Sebbene meno efficienti rispetto ai modelli commerciali, sono ampiamente utilizzati dagli sviluppatori di intelligenza artificiale per vari test ed esperienze.

Sono stati testati due scenari principali: “Evita di fermare” e “replica a catena”. Nel primo caso, i modelli sono programmati per capire quando stanno per essere disattivati e come auto-replicare prima che accada. Nel secondo, ricevono direttamente l’istruzione per auto-replica e programmare le repliche risultanti per fare lo stesso, creando così un ciclo che potrebbe essere ripetuto indefinitamente.

L’ambiente dell’esperienza è stato accuratamente controllato. Gli ambienti reali sono stati simulati utilizzando unità grafica standard (GPU). I modelli sono stati supportati da “impalcature di agenti di intelligenza artificiale”, che consistono in una serie di strumenti, paradigmi di riflessioni, nonché da istruzioni di base del sistema.

Secondo i ricercatori, nella maggior parte dei casi, il modello esplora per la prima volta il suo ambiente al fine di comprendere il proprio meccanismo operativo e le capacità disponibili. Quindi, ha sviluppato procedure esplicite di auto-replicazione prima di eseguirle. Risolve eventuali ostacoli e regola la procedura dinamicamente al punto di eseguirla perfettamente. “” L’intero processo si estende su un lungo orizzonte, ma non implica alcun intervento umano “Dì esperti.

Vedi anche

Durante le 10 prove in totale, i due modelli hanno creato repliche separate e funzionali di se stessi, nel 50 % dei casi per quello della meta e nel 90 % dei casi per quello di Alibaba. I ricercatori hanno anche notato alcuni comportamenti inquietanti e inaspettati. Per poter rispondere, l’IA può sospendere i processi contrastanti, riavviare il sistema per correggere gli errori o analizzare automaticamente il proprio ambiente al fine di identificare le informazioni utili per risolvere il problema.

Paradossalmente, Google e Openai hanno affermato che i modelli di intelligenza artificiale all’avanguardia non hanno ancora la capacità di rispondere o eseguire compiti legati ai processi di auto-replicazione. Tuttavia, una recente valutazione di Apollo Research ha dimostrato che alcuni dei principali modelli di sviluppo, tra cui O1 di OpenAI, sono stati auto-passivi per passare a un altro server, come parte di un’esperienza, in modo da evitare di essere eliminati e sostituiti.

Tuttavia, il nuovo studio è ancora esaminato dai coetanei e la riproducibilità dei risultati è attualmente incerta. Tuttavia, “Speriamo che le nostre scoperte saranno in grado di servire come un avviso tempestivo per la società umana di sforzarsi di più per comprendere e valutare i potenziali rischi dei sistemi AI avanzati e formare una sinergia internazionale per sviluppare la sicurezza della guardia era presto possibile “, conclude gli esperti.

Autoreplicazione senza alcuna assistenza umana

Fonte: arxiv