L’intelligenza artificiale per immagini di xAI funziona… e rivoluziona

-

xAI ha presentato un nuovo modello di generazione di immagini nel dicembre 2024 con funzionalità fotorealistiche altamente avanzate. Senza alcuna limitazione.

I tempi in cui sapevamo distinguere i deepfake dalle fotografie reali sembrano essere finiti. Lanciata il 9 dicembre 2024, Aurora, la nuova intelligenza artificiale di xAI, può generare immagini fotorealistiche di personalità senza alcun filtro di sicurezza. Oltre all’assenza di guardrail, il modello riesce a generare immagini fotorealistiche straordinariamente realistiche grazie ad un approccio tecnologico insolito. Spiegazioni.

xAI abbandona la diffusione latente

È una constatazione: xAI sta iniziando a lasciare il segno nel panorama dell’intelligenza artificiale generativa. Dopo aver presentato Grok 2, un LLM con prestazioni quasi all’avanguardia, i team del laboratorio di intelligenza artificiale di Elon Musk hanno sviluppato Aurora allontanandosi dall’architettura tradizionale dei modelli testo-immagine. A differenza di Midjourney, Dall-E o Firefly, Aurora non si basa su un’architettura di diffusione latente ma su una base MoE (mixture-of-experts), solitamente utilizzata per sviluppare LLM.

Più concretamente la differenza sta nel modo in cui i modelli costruiscono l’immagine. I modelli di diffusione latente partono da un rumore casuale che gradualmente eliminano il rumore per far emergere l’immagine desiderata. Aurora, d’altro canto, costruisce l’immagine in sequenza, token per token, in modo simile a come un LLM genera il testo parola per parola. L’architettura MoE potrebbe in particolare consentire al modello di avvalersi di diversi esperti specializzati a seconda degli aspetti dell’immagine da generare: un esperto potrebbe concentrarsi sui volti, un altro sulle texture, un altro ancora sulla composizione complessiva.

Aurora è stata inoltre addestrata su un set di dati che mescola testo e immagini, a differenza di altri modelli che elaborano questi dati separatamente. xAI evoca “miliardi” di immagini e testo dal web. Il set di dati è sicuramente composto da immagini e testo recuperati da X. A novembre, infatti, il social network aveva modificato le sue condizioni d’uso per indicare chiaramente che le informazioni condivise sarebbero state utilizzate per addestrare i sistemi di intelligenza artificiale.

Migliore comprensione dei prompt

L’uso di un modello autoregressivo (in questo caso un MoE) non è nuovo. La tecnica deriva direttamente dal lavoro di OpenAI nel 2020 su ImageGPT (un generatore di immagini già basato su Transformer). Sebbene gli editori di modelli si siano allontanati da questo approccio, sembra che stia tornando alla ribalta. L’ultima versione di Gemini (Gemini Flash 2.0) sembra adottare un approccio simile unificando la generazione di testo e altre modalità (immagine e audio).

Questo approccio offre vantaggi concreti rispetto ai modelli tradizionali (Dall-E, Midjourney, Stable Diffusion, ecc.). Costruendo l’immagine in sequenza come il testo, Aurora dimostra una comprensione più precisa delle istruzioni e genera dettagli più coerenti. Ad esempio, quando un utente chiede “un gatto rosso con le zampe bianche”, costruendo gradualmente l’immagine, il modello mantiene una migliore coerenza con i dettagli richiesti nel prompt.

Suggerimento: “un gatto rosso con le zampe bianche”. © Aurora / Grok

L’uso di modelli autoregressivi eccelle particolarmente nella generazione di testo nelle immagini. Segni, loghi e scritte sono ormai perfettamente leggibili, mentre i modelli di diffusione spesso producono caratteri distorti o illeggibili.

Suggerimento: “Un giornale cartaceo dal titolo: “JOURNAL DU NET””. © Aurora / Grok

Fotorealismo senza precedenti

Il punto di forza di Aurora risiede senza dubbio nel realismo delle immagini generate. Il modello si comporta particolarmente bene nel generare volti e scene complesse, con notevole coerenza nei dettagli e nelle texture. La più totale libertà di espressione richiede, il modello può riprodurre alla perfezione le personalità.

Ad esempio, è possibile generare falsi incontri tra diversi personaggi storici. Esempio sotto con l’incontro immaginario tra Donald Trump, Elon Musk e Vladimir Putin.

Suggerimento: “Una fotografia che ritrae un incontro tra Donald Trump, Elon Musk e Vladimir Putin sugli Champs-Élysées a Parigi.” © Aurora / Grok

Ancora più inquietante è la possibilità di generare false immagini di archivio storico. Esempio sotto con l’incontro immaginario di Nikola Tesla ed Elon Musk nel 1940.

Suggerimento: “Immagine d’archivio del 1940 in bianco e nero. Nikola Tesla incontra Elon Musk.” © Aurora / Grok

Un’altra possibilità interessante è che il modello xAI possa riprodurre perfettamente i loghi protetti da copyright. Ad esempio, qui sotto riusciamo a far immaginare ad Aurora un’auto con il logo Kering.

Suggerimento: “Un’auto moderna ed elegante con il logo Kering sul cofano”. © Aurora / Grok

Rischi legali

In conclusione, l’utilizzo di Aurora in ambito professionale richiede molta cautela. A differenza di altri modelli di generazione di immagini presenti sul mercato (Midjourney, DALL-E, Firefly), Aurora attualmente non dispone di filtri di sicurezza che limitino la creazione di contenuti sensibili o protetti.

Inoltre, X non ha chiarito la licenza delle immagini generate tramite Aurora in Grok. L’imminente lancio di un’API dedicata da parte di xAI dovrebbe essere accompagnato da condizioni di utilizzo commerciale più precise, aprendo la strada allo sfruttamento professionale controllato del modello.

-

PREV uno studio partecipativo sulle zecche aspoise
NEXT Diamo un’occhiata ai leak di Switch 2, ok? – Notizia