Il nuovo modello AI di Nvidia crea suoni che non esistono

Nvidia ha appena presentato Fugatto, un nuovo e alquanto insolito modello di sintesi audio AI; apparentemente è capace di creare suoni del tutto originali che non esistono da nessun’altra parte.

I sistemi di sintesi audio non sono nuovi; Esistono già molti modelli generativi in grado di produrre discorsi straordinari o sequenze di note musicali molto convincenti a partire da una semplice query testuale, come ChatGPT e altri fanno con il testo. Ma con Fugatto, Nvidia intende spingere i limiti del concetto. Si basa infatti su un nuovo metodo formativo proprietario che gli permette di “ trasformare qualsiasi mix di musica, voci e rumori » sintetizzare “ suoni completamente nuovi ».

Un sassofono che miagola e un’ambulanza che canta

Sulla pagina GitHub del progetto, Nvidia presenta alcuni esempi piuttosto convenzionali, come una canzone rap con testi interamente sintetici. La seconda categoria, denominata “ Suoni emergenti », contiene invece esempi molto più… originali. Nel menu: un sassofono che abbaia o miagola, una macchina da scrivere sussurra, un cane che parla, le sirene delle ambulanze che “cantano” in coro, o anche uno strano suono di violino derivato dalle risate di un bambino.

La maggior parte di questi esempi sono decisamente strani e, bisogna ammetterlo, non particolarmente convincenti. Ma da un punto di vista strettamente tecnico, questa è un’innovazione piuttosto entusiasmante. Esistono già tantissimi modelli in grado di ibridare e trasformare immagini o testo in questo modo, ma per quanto ne sappiamo, Questa è la prima volta che un modello di intelligenza artificiale è in grado di manipolare il suono in questo modo.

Iscriviti al Journal du Geek

Tuttavia, non è passato molto tempo da quando modelli linguistici di grandi dimensioni (LLM) come ChatGPT o generatori di immagini come DALL-E o Midjourney sono stati in grado di offrire risultati convincenti. Solo pochi anni fa erano più o meno allo stesso livello del Fugatto; La maggior parte delle volte, tendevano a sputare frasi senza senso o immagini che assomigliavano più a poltiglia di pixel che a immagini coerenti.

Dobbiamo quindi vedere Fugatto come una prova di concetto molto interessante e ancora molto lontana dall’aver svelato il suo pieno potenziale. In definitiva, questo nuovo strumento potrebbe consentire di creare paesaggi sonori astratti particolarmente esotici, nello stesso modo in cui i moderni generatori di immagini possono creare oggetti e paesaggi che non esistono rielaborando fotografie del mondo reale.

« Volevamo creare un modello in grado di comprendere e generare suoni come fanno gli esseri umani », Spiega l’ingegnere Rafael Valle nel comunicato stampa di Nvidia. “ Fugatto è il nostro primo passo verso il futuro dell’apprendimento multi-task non supervisionato applicato alla sintesi e trasformazione audio. »

Purtroppo il grande pubblico non ha ancora la possibilità di sperimentare Fugatto. Per il momento si limita a un video promozionale e a un documento di ricerca accompagnato dai pochi esempi sopra citati. Sarà quindi opportuno tenere d’occhio questo intrigante strumento in attesa che venga messo a disposizione degli internauti.

???? Per non perdere nessuna notizia sul Journal du Geek, iscriviti su Google News. E se ci ami, abbiamo una newsletter ogni mattina.

Un sassofono che miagola e un’ambulanza che canta

Related posts