Dovremmo adottare ChatGPT per i video?

-

Svelato dal laboratorio americano Luma AI, Dream Machine permette di generare video a partire da descrizioni testuali o immagini.

La generazione video sta facendo passi da gigante in questa metà anno. Dopo Sora presso openAI, Kling presso il cinese Kuaishou, ecco Dream Machine sviluppato dal laboratorio Luma AI. Presentata ufficialmente in beta pubblica il 12 giugno, l’IA impressiona e crea buzz sui social network. Ma cos’è veramente? Dream Machine può essere utilizzata per uso professionale? Abbiamo testato il modello in diversi casi d’uso.

Un team esperto in reti neurali

Per il momento Luma non ha comunicato i dettagli tecnici del suo modello. La piccola start-up con sede a San Francisco sin dalla sua creazione nel 2021, tuttavia, dispone di un team con competenze nell’intelligenza artificiale e più in particolare nella visione artificiale. Il co-fondatore e CTO Alex Yu è stato in precedenza un ricercatore di intelligenza artificiale presso l’Università della California, Berkeley, dove ha pubblicato lavori pionieristici sul rendering neurale in tempo reale di scene 3D e sulla generazione da un singolo fotogramma. Da parte sua, il cofondatore e amministratore delegato Amit Jain ha lavorato presso Apple sulle esperienze multimediali delle cuffie Vision Pro. L’azienda si affida anche a Jiaming Song, capo scienziato riconosciuto per il suo lavoro sui modelli di diffusione, che ha migliorato significativamente le prestazioni all’avanguardia.

Prima di lanciare Dream Machine, Luma aveva già Genie, un modello di base di generazione 3D. La start-up ha raccolto 43 milioni di dollari in un round di finanziamento di serie B a gennaio. Il round è stato guidato dal fondo di venture capital Andreessen Horowitz, con la partecipazione di altri investitori tra cui Amplify, Matrix e Nvidia. Il finanziamento all’epoca era quello di finanziare un cluster di oltre 3.000 GPU Nvidia A100 per guidare nuovi modelli. Dream Machine è, molto probabilmente, il risultato di questa formazione.

Video spesso realistici

Tecnicamente possiamo supporre, data l’esperienza interna di Luma, che Dream Machine si basi su un’intelligente orchestrazione di modelli di diffusione accoppiati con modelli trasformativi. Dream Machine offre due tipi di prompt: il classico prompt di testo o il prompt di testo con un’immagine. L’interfaccia di Dream Machine è semplice e molto facile da usare. La generazione richiede pochi minuti, un tempo di tutto rispetto per un modello di generazione video.

L’interfaccia della Macchina dei Sogni. ©Schermata

Primo test, chiediamo all’IA di generare un’ape che si raduna su un fiore. Il risultato è nel complesso soddisfacente, anche se la coerenza visiva del movimento delle ali lascia un po’ a desiderare. Tuttavia, il modello riesce a identificare correttamente la richiesta e genera il video previsto.

Suggerimento: una ripresa macro di un’ape che cerca cibo su un fiore.

“Una ripresa macro di un’ape che cerca cibo su un fiore.”

In teoria più complesso, chiediamo all’IA di generare un video di una coppia che balla sotto la pioggia, davanti alla Torre Eiffel a Parigi. Il risultato è, sorprendentemente, visivamente perfetto. Il progetto è graficamente e cinematograficamente coerente e qualitativo. Piccolo svantaggio, l’IA non riesce a comprendere (o generare) l’azione principale: la danza. Le due figure sono immobili. Tuttavia, il piano è perfettamente utilizzabile così com’è.

Suggerimento: Un uomo e una donna ballano davanti alla Torre Eiffel a Parigi, sotto la pioggia.

“Un uomo e una donna ballano davanti alla Torre Eiffeil a Parigi, sotto la pioggia.”

Chiediamo ora all’IA di generare una ripresa di un uomo in sella al suo cavallo nel sito della Monument Valley. L’IA riesce ancora una volta brillantemente a generare la scena attesa. Il piano è coerente e visivamente qualitativo. Solo pochi scatti casuali e un effetto schermo verde suggeriscono un video generato dall’intelligenza artificiale.

Suggerimento: un uomo cavalca il suo cavallo nella Monument Valley. Colpo di Dolly.

“Un uomo cavalca il suo cavallo nella Monument Valley. Dolly shot”

Più complesso, chiediamo all’IA di generare una veduta aerea di Parigi, poiché un drone avrebbe potuto catturarla. Il risultato qui è più deludente. L’AI riesce a comprendere la richiesta ma genera un video poco credibile per contenuto e forma. Il video presenta una vista atipica in cui la Cattedrale di Notre-Dame sembra essersi fusa con la Torre Eiffel. Dal punto di vista formale l’immagine non è molto credibile e ricorda una vista 3D in Apple Map o Google Maps. È possibile che l’intelligenza artificiale sia stata addestrata su un set di dati con video 3D provenienti da queste applicazioni. La messa a punto di video aerei più diversi potrebbe certamente correggere il problema.

Suggerimento: una veduta aerea di Parigi con un drone.

“Una veduta aerea di Parigi da parte di un drone.”

Scegliamo infine di testare le capacità di generazione del modello aggiungendo un’immagine di riferimento nel prompt. Al momento del test la funzionalità sembrava vittima del proprio successo e dopo diverse decine di minuti non è stato possibile generare alcun video. I risultati pubblicati sui social da molti utenti, però, dimostrano una reale padronanza dell’animazione delle immagini fisse.

Tre abbonamenti a pagamento offerti

Luma AI offre quattro offerte per l’utilizzo di Dream Machine:

  • Un’offerta gratuita che ti consente di generare fino a 30 video al mese, senza uso commerciale.
  • Un’offerta a $ 23,99 al mese per 120 video al mese, uso commerciale e generazione prioritaria.
  • Un’offerta a $ 79,99 al mese per 400 video al mese, uso commerciale e generazione prioritaria.
  • Un’offerta a $ 399,99 al mese per 2000 video al mese, uso commerciale e generazione prioritaria.
Un'immagine generata automaticamente contenente testo, screenshot, software, FontDescription

Sebbene Dream Machine non sia ancora perfetta, il modello di generazione video sviluppato da Luma AI rappresenta un importante progresso nel campo ancora emergente dell’intelligenza artificiale generativa per la generazione video. Le sue prestazioni complessive sono particolarmente impressionanti, con risultati molto realistici in molti tipi di scene e movimenti. Certamente il modello mostra ancora alcuni punti deboli, come incongruenze nei movimenti complessi o difficoltà nel catturare alcuni dettagli di un prompt. Ma queste sono sfide tecniche comuni ai primissimi modelli di generazione video di questa qualità.

Con un set di dati di addestramento più ricco e diversificato o la possibilità per gli utenti di mettere a punto il modello sul proprio hardware, Dream Machine guadagnerebbe senza dubbio in affidabilità e precisione. Già il modello può essere molto utile per aggiungere rapidamente riprese semplici e realistiche a un montaggio video. Un modello da seguire molto da vicino.

-

PREV L’uscita dei grandi giochi AAA su iPhone sarebbe un flop | Xbox
NEXT Anteprima Questo videogioco è uno dei più grandi schiaffi visivi mai visti e siamo riusciti a giocarci dopo 3 anni di attesa. La nostra anteprima di REPLACED