Stability AI annuncia il lancio di Stable Diffusion 3 Medium, un modello Text-to-Image open source leggero ma ad alte prestazioni

Lo scorso febbraio, Stability AI ha annunciato i suoi ultimi due modelli text-to-image: Stable Cascade e Stable Diffusion 3, nonché l’apertura della lista d’attesa per un’anteprima anticipata di quest’ultima iterazione del suo modello di punta. La startup ha recentemente rilasciato Stable Diffusion 3 (SD3) Medium, un modello open source da 2 miliardi di parametri che pubblicizza come il modello di generazione di immagini più sofisticato fino ad oggi.

La famiglia SD3 comprende modelli che vanno da 800 milioni a 8 miliardi di parametri, offrendo agli utenti una gamma di opzioni per soddisfare le loro specifiche esigenze creative.

I modelli più piccoli come SD3 Medium offrono una combinazione equilibrata di prestazioni, accessibilità ed efficienza. Sono più facili da riciclare e perfezionare per casi d’uso specifici e accessibili a una gamma più ampia di utenti, poiché sono compatibili con l’hardware di consumo.

SD3 medio

Secondo Stabilità AI, “Le dimensioni ridotte di SD3 medium lo rendono perfetto per l’esecuzione su PC e laptop consumer, nonché su GPU di livello aziendale”.
Il minimo richiesto per eseguire Stable Diffusion Medium è infatti di soli 5 GB di VRAM (memoria video). Stability AI consiglia comunque 16 GB di VRAM per un utilizzo davvero comodo ed ottimale.

SD3 è un modello di diffusione latente composto da tre diversi codificatori di testo (CLIP L/14, OpenCLIP bigG/14 e T5-v1.1-XXL), un nuovo modello di trasformatore di diffusione multimodale (MMDiT) e un codificatore automatico variazionale a 16 canali ( VAE) modello simile a quello utilizzato per Stable Diffusion XL

Prestazioni del modello

Secondo Stability AI, SD3 Medium si distingue per il suo fotorealismo, il rispetto dei suggerimenti, la capacità di generare testi e le possibilità di messa a punto.

Presenta diversi miglioramenti significativi:

Qualità generale e fotorealismo : Diffusione stabile 3 Media produce immagini di qualità eccezionale, con dettagli precisi, colori vivaci e illuminazione realistica. Grazie all’integrazione di un VAE a 16 canali, riesce a superare le sfide tipiche dei modelli AI, compreso il realismo di mani e volti;
Comprensione rapida : SD3 Medium può gestire istruzioni lunghe e complesse, eccellerebbe nel gestire ragionamenti spaziali, elementi compositivi, azioni e stili. Gli utenti possono ottimizzare le prestazioni e l’efficienza con tre codificatori di testo integrati;
Tipografia : L’architettura Diffusion Transformer raggiunge una qualità del testo senza rivali, riducendo gli errori di ortografia, crenatura, formazione delle lettere e spaziatura.
Risparmio di risorse : Stable Diffusion 3 Medium funziona perfettamente su GPU consumer standard, senza degrado delle prestazioni, grazie al ridotto ingombro di VRAM;
Ritocchi : questo modello è progettato per assorbire dettagli sfumati da piccoli set di dati, rendendolo ideale per la personalizzazione e applicazioni specifiche;

Ecco alcune immagini generate dal modello e i relativi suggerimenti condivisi da Stability AI:

Collaborazione con NVIDIA e AMD

Stability AI ha collaborato con NVIDIA per ottimizzare le prestazioni dei suoi modelli, incluso Stable Diffusion 3 Medium, utilizzando le GPU NVIDIA® RTX™ e TensorRT™. Le versioni ottimizzate per TensorRT offrono un aumento delle prestazioni del 50%, garantendo un’efficienza senza pari.

Inoltre, AMD ha ottimizzato l’inferenza per Stable Diffusion 3 Medium su vari dispositivi, tra cui le più recenti APU, GPU consumer e GPU MI-300X Enterprise di AMD, garantendo compatibilità e prestazioni leader del settore su un’ampia gamma di apparecchiature.

Accessibilità e licenze

Stable Diffusion 3 Medium è un modello open source rilasciato con la licenza Stability Non-Commercial Research Community, che riafferma l’impegno di Stability AI verso l’IA generativa aperta. Per uso commerciale, artisti, designer e sviluppatori possono passare a una nuova licenza creatore per $ 20 al mese. Per quanto riguarda le aziende che desiderano un utilizzo commerciale su larga scala, Stability AI offre licenze adeguate e vi invita a contattarle per maggiori dettagli.

Prova la diffusione stabile 3

Stable Diffusion 3 Medium è ora disponibile tramite API basata su Fireworks AI. Gli utenti possono anche provare altre versioni della serie Stable Diffusion 3, come SD3 Large e SD3 Ultra, con una prova gratuita di tre giorni sul chatbot Stable Assistant e su Discord tramite Stable Artisan.

SD3 medio

Prestazioni del modello

Collaborazione con NVIDIA e AMD

Accessibilità e licenze

Prova la diffusione stabile 3

Related posts