OpenAI amplia i confini della creazione di immagini e video tramite intelligenza artificiale. Ora, la generazione dei media avviene in un lampo, rendendo il tempo di attesa quasi invisibile.
Grazie a un nuovo modello, l’intelligenza artificiale produce immagini e video 50 volte più velocemente, senza compromettere la qualità. La chiave? Un sistema in due fasi.
I modelli di streaming tradizionali, ampiamente utilizzati per generare immagini e video, operano con centinaia di passaggi di denoising progressivi. Questo processo, sebbene efficiente, richiede tempo e elevate risorse computazionali.
Per risolvere questo problema, Cheng Lu e Yang Song di OpenAI hanno sviluppato un “modello di coerenza nel tempo continuo” (sCM) per semplificare il processo di creazione. In soli due passaggi, questo modello può generare campioni di alta qualità, superando i metodi di diffusione convenzionali.
Con oltre 1,5 miliardi di parametri, l’sCM di OpenAI opera in tempi record: 0,11 secondi per produrre un’immagine su un processore A100 (come esempio). In confronto, i modelli precedenti richiedevano diversi secondi e molto di più energia.
Questa velocità potrebbe trasformare l’uso dell’intelligenza artificiale in aree che richiedono la generazione in tempo reale. I settori dell’immagine, del video e dell’audio sono quindi pronti a beneficiare di questo progresso.
Testato su set di dati densi, sCM mantiene la qualità dell’immagine rivaleggiando con i modelli di diffusione. Il suo punteggio FID (Fréchet Inception Distance, una misura utilizzata per valutare la qualità delle immagini create da un modello generativo) è quindi inferiore solo del 10% a quello dei migliori modelli, il che ne testimonia l’efficacia.
Limitando le risorse di calcolo necessarie, l’sCM diventa anche una soluzione più ecologica ed economica rispetto ai modelli attuali, anche se in cambio ciò dovrebbe contribuire alla sua democratizzazione, e quindi al consumo energetico complessivo… OpenAI spera di ottimizzare ulteriormente la sua velocità per applicazioni industriali impegnative.
In definitiva, la sCM potrebbe fornire una base tecnologica per un’intelligenza artificiale generativa ultraveloce. Questo balzo in avanti suggerisce un futuro in cui l’intelligenza artificiale produrrà media con qualità e fluidità senza precedenti, e senza dubbio video in tempo reale.