finalmente un’intelligenza artificiale qualitativa da testo a immagine sul dispositivo

Stability AI ha rilasciato Stable Diffusion 3 Medium open source, un modello eseguibile da testo a immagine con requisiti hardware ridotti.

La generazione da testo a immagine arriva localmente. Una volta riservati ai server dotati di GPU che costavano decine di migliaia di dollari, i modelli di intelligenza artificiale da testo a immagine si stanno aprendo ai chip consumer. Ultimo esempio con Stable Diffusion 3 Medium. Rilasciato il 12 giugno come open source, il modello Stability AI può essere facilmente eseguito localmente su computer con una configurazione intermedia. Inoltre, Stable Diffusion 3 Medium (SD3M) è, secondo Stability AI, il modello più avanzato per la generazione di immagini… anche se ha solo 2 miliardi di parametri.

Per questa nuova versione, Stability AI ha concentrato i propri sforzi sul fotorealismo, comprendendo e rispettando la fedeltà delle istruzioni tempestive, generando una tipografia di alta qualità e un facile adattamento alla messa a punto.

Un modello addestrato su più di un miliardo di immagini

Con SD3M, Stability introduce un nuovo approccio e si allontana dai modelli di consegna tradizionali. L’intelligenza artificiale si basa sulla moderna tecnologia chiamata “Flusso Rettificato”. I modelli di diffusione classici funzionano aggiungendo gradualmente rumore a un’immagine e quindi imparando a invertire questo processo per ricreare l’immagine originale. I Flussi Rettificati offrono un approccio più diretto. Invece di fare affidamento su questi passaggi foley e di riduzione del rumore, utilizzano trasformazioni più fluide e continue (lineari) per generare immagini. Ciò non solo semplifica il processo, ma produce anche immagini più velocemente e spesso con una qualità migliore.

Stable Diffusion 3 Medium si basa anche su un’architettura innovativa: il Multimodal Diffusion Transformer o MMDiT. Questo gestisce in modo indipendente le rappresentazioni testuali e visive (insiemi distinti di pesi per l’immagine e il testo), promuovendo un dialogo fluido tra le due modalità. Una risorsa importante per comprendere in dettaglio le istruzioni nel prompt.

Per ottenere i migliori risultati possibili in una varietà di scene diverse, il modello è stato addestrato su un set di dati di un miliardo di immagini. Un vasto database preventivamente filtrato: tutti i contenuti di natura esplicita sessuale o violenta sono stati rimossi. Le immagini sono state poi deduplicate per evitare duplicati e la riproduzione di immagini troppo vicine agli originali. Infine, il modello è stato messo a punto su 30 milioni di immagini di alta qualità enfatizzando contenuti e stili visivi specifici (sicuramente stili fotografici, architettura, concetti, ecc.). L’obiettivo era perfezionare le capacità del modello su attività più creative e allineare meglio i suoi risultati alle preferenze dell’utente.

Un modello eseguibile localmente

Grazie alla sua architettura MMDiT e alla separazione dei pesi per ciascuna modalità, il modello evita ridondanze e sprechi di memoria. Per funzionare, il modello richiede solo 5 GB di VRAM, ha detto a VentureBeat Christian Laforte, co-CEO di Stability AI. Tuttavia, l’azienda consiglia di utilizzare una configurazione con più VRAM, circa 16 GB, per un utilizzo ottimale. Molto concretamente il modello può essere dedotto su un classico computer dotato di una GPU di classe Nvidia RTX. Stability AI ha collaborato con il colosso di Santa Clara per ottimizzare le prestazioni del modello sugli RTX. Le versioni ottimizzate con TensorRT SDK di Nvidia sarebbero fino al 50% più efficienti.

AMD ha inoltre lavorato per ottimizzare l’inferenza del modello sulle APU (processori con grafica integrata) più recenti, sulle schede grafiche consumer AMD e sulle potenti GPU aziendali AMD MI-300X. Collaborando con i più grandi player di GPU e in particolare con le gamme di GPU consumer, Stability punta chiaramente all’uso locale del suo modello, su dispositivi personali.

Per la messa a punto, però, bisognerà rivolgersi a modelli di GPU con un quantitativo di VRAM maggiore.

Massimo costo qualità/risorsa?

Siamo stati in grado di testare Stable Diffusion 3 Medium da uno spazio su Hugging Face. Il modello di Stabilità sorprende a prima vista per la qualità complessiva della produzione data la dimensione del modello (ricordate, solo 2 miliardi di parametri). Tuttavia, i suggerimenti complessi dovrebbero essere evitati.

Il modello Stability AI sta facendo progressi reali nella generazione di immagini fotorealistiche. Esempio con il ritratto qui sotto: i lineamenti del viso sono credibili e la coerenza complessiva è abbastanza buona. Un vero vantaggio, il modello riesce a seguire esattamente le nostre istruzioni. Notiamo tuttavia alcuni artefatti tipici dell’intelligenza artificiale: gestione casuale della luce, bokeh più o meno ben controllato e saturazione leggermente lenta.

Un'immagine contenente volto umano, cielo, persona, descrizione all'aperto generata automaticamente — Suggerimento: Ritratto di un uomo laotiano con lineamenti del viso marcati. L’oceano sullo sfondo. Fotorealistico. © Stabe Diffusione V3

Il vero punto di forza è infatti il rispetto della tempestività. Nell’immagine qui sotto, chiediamo all’intelligenza artificiale di generare un’immagine di un’auto sportiva viola che guida veloce sugli Champs Elysees. Molteplici elementi tutti rispettati dal modello.

Un'immagine contenente veicolo, veicolo terrestre, cielo, ruotaDescrizione generata automaticamente — Suggerimento: un’auto sportiva viola sfreccia lungo gli Champs Elysées a Parigi. Fotorealistico. © Diffusione stabile V3

Ancora più impressionante, Stable Diffusion 3 Medium gestisce l’integrazione del testo nelle immagini in modo abbastanza fedele. Qui gli chiediamo di posizionare il testo “Notizie AI di oggi” su un giornale. La modella risponde brillantemente con un’immagine di qualità. Tuttavia, nell’immagine rimangono presenti alcuni artefatti con distorsioni caratteristiche dell’intelligenza artificiale.

Un'immagine contenente cartone animato, giocattolo, descrizione degli interni generata automaticamente — Suggerimento: un pinguino con gli occhiali sta leggendo un giornale in un bar. Il titolo principale recita “Notizie sull’intelligenza artificiale di oggi”. Stile cartone animato americano. © Diffusione stabile V3

All’inizio SD3M fu pesantemente criticato per la sua capacità di generare immagini umane incoerenti, in particolare a livello degli arti. Non abbiamo riprodotto gli stessi schemi ma identifichiamo comunque i limiti del modello: prompt contenenti almeno un essere umano e richieste troppo precise. Ad esempio, chiediamo all’IA di generare una coppia, un uomo e una donna, su una motoslitta nelle Alpi svizzere. Il modello riesce a identificare la richiesta ma non riesce a rendere coerente la scena. Di conseguenza, i due umani vengono generati ma la coerenza dei membri nello spazio è assente. L’immagine finale è quindi irrealistica e inutilizzabile.

Un'immagine contenente motoslitta, all'aperto, neve, personaDescrizione generata automaticamente — Suggerimento: un uomo e una donna sfrecciano su una motoslitta attraverso un paesaggio invidiabile nelle Alpi svizzere. Pittura realistica. © Diffusione stabile V3

Secondo i nostri test, solo un’iterazione ripetuta sullo stesso prompt con un seed casuale permette di ottenere risultati più coerenti. Peccato.

Quali condizioni d’uso?

I pesi Stable Diffusion 3 Medium sono distribuiti come open source con una licenza non commerciale. Per avere i diritti sulle immagini generate, Stability offre una licenza “creatore” a $ 20 al mese. Quest’ultima è riservata ai professionisti che guadagnano meno di un milione di dollari di fatturato annuo, beneficiano di meno di un milione di dollari di finanziamenti istituzionali e con meno di un milione di utenti attivi mensili. Se una qualsiasi delle tre condizioni non viene soddisfatta, Stability offre una licenza aziendale a prezzo personalizzato.

Stable Diffusion 3 Medium ha un ottimo rapporto qualità/risorse materiali. La sua leggerezza e ottimizzazione ne fanno il modello di riferimento per la generazione di immagini locali. Necessità di riservatezza, mancanza di connettività, messa a punto… Esistono numerosi casi d’uso. Per la generazione di immagini più tradizionale, è sempre preferibile un modello proprietario come Dall-E 3 o Midjourney.

Un modello addestrato su più di un miliardo di immagini

Un modello eseguibile localmente

Massimo costo qualità/risorsa?

Quali condizioni d’uso?

Related posts