Quando l’intelligenza artificiale inserisce il suono nell’immagine

Quando l’intelligenza artificiale inserisce il suono nell’immagine
Quando l’intelligenza artificiale inserisce il suono nell’immagine
-

Il laboratorio DeepMind di Google ha fatto un passo avanti significativo nel campo dell’intelligenza artificiale generativa. I suoi ricercatori hanno appena sviluppato un sistema chiamato V2A, in grado di produrre colonne sonore, effetti sonori e dialoghi per accompagnare i video.

Fino ad ora, i modelli di intelligenza artificiale esistenti erano in grado di generare video, ma rimanevano silenziosi, incapaci di creare alcun suono che li accompagnasse. DeepMind è riuscita a colmare questa lacuna grazie al suo sistema V2A, per “ da video ad audio“. Questo progresso tecnologico potrebbe rivoluzionare il mondo della produzione audiovisiva.

Il sistema V2A si basa su un modello di intelligenza artificiale addestrato su un ampio set di dati composto da suoni, trascrizioni di dialoghi e riprese video. Formazione molto avanzata che gli permette di analizzare il pixel grezzi di un video e generare perfettamente l’accompagnamento sonoro sincronizzato.

Che si tratti di una colonna sonora musicale, di effetti sonori o persino di dialoghi, questa intelligenza artificiale può creare tutto per adattarlo al contenuto visivo. E la cosa più sorprendente è che questa generazione audio può essere effettuata senza alcuna descrizione testuale preventiva.

Limitazioni attuali

Sebbene questa tecnologia apra prospettive promettenti, soprattutto nel campo della conservazione del patrimonio audiovisivo, la sua qualità non è ancora perfetta. DeepMind riconosce che il risultato sonoro generato dalla sua intelligenza artificiale attualmente manca di naturalezza e realismo.

Il sistema ha particolarmente difficoltà a elaborare video degradati o contenenti artefatti. Sono quindi ancora necessari miglioramenti prima di una possibile distribuzione su larga scala. DeepMind, infatti, per il momento non prevede di rendere V2A accessibile al grande pubblico.

L’azienda desidera inoltre condurre valutazioni approfondite sulla sicurezza e sui potenziali impatti etici del suo potente sistema. Questo potrebbe essere facilmente deviato per produrre contenuti parodici, diffamatorio o violare il diritto d’autore senza il consenso dei titolari dei diritti. Sono in corso consultazioni con i professionisti dei media audiovisivi.

I posti di lavoro nel settore audiovisivo sono a rischio

Al di là delle sfide tecniche, V2A e tecnologie simili sollevano interrogativi sulla loro futura influenza nell’industria cinematografica e audiovisiva. Se questi strumenti dovessero diffondersi, potrebbero potenzialmente minacciare molte professioni creative legati alla produzione audiovisiva.

Compositori di musica da film, effetti sonori e creatori di effetti sonori o anche gli attori del doppiaggio potrebbero vedere i loro servizi resi in gran parte superflui da sistemi di intelligenza artificiale in grado di generare automaticamente questi elementi audio. UN rischio di dequalificazione e massicce perdite di posti di lavoro passerebbe quindi al di sopra di queste professioni.

Di fronte a queste minacce, l’industria dovrà preparare e pensare a un quadro normativo e giuridico che disciplini l’uso di queste tecnologie. Devono essere messe in atto misure per proteggere l’occupazione e la proprietà intellettuale.

Condividi l’articolo:


Facebook


LinkedIn

Il nostro blog è alimentato dai lettori. Quando acquisti tramite i link sul nostro sito, potremmo guadagnare una commissione di affiliazione.

-

NEXT OpenAI lancia GPT critico per correggere GPT-4