uno strumento Nvidia capace di creare suoni mai sentiti prima

Tuesday 26th November 2024 11:49 AM

I team Nvidia hanno appena annunciato una tecnologia capace di cambiare l’ambiente audio. Chiamato Fugatto, questo strumento può creare voce, musica o effetti sonori in base a una richiesta scritta.

Dopo immagini e video, è il momento del suono per l’intelligenza artificiale. I ricercatori di intelligenza artificiale di Nvidia hanno appena creato un “coltellino svizzero per il suono” che consente ai suoi utenti di creare letteralmente tutto ciò che esiste ed è mai esistito.

L’immaginazione come unico limite

Nvidia colpisce duro con il suo nuovo strumento. Nelle prime immagini fornite dall’azienda possiamo osservare una semplice interfaccia in cui l’utente inserisce un comando testuale e ottiene in risposta un suono, una musica o un effetto sonoro.

Esempio di utilizzo: Fugatto “crea un suono in cui passa un treno e diventa una rigogliosa orchestra di archi” // Fonte: Nvidia

Se lo strumento può sembrare classico e ricordare altri come Sono, Fugatto trova la sua originalità nella possibilità di creare ciò che non esiste. Ad esempio, è possibile chiedergli di creare un suono di “il sassofono urla, poi abbaia sulla musica elettronica con cani che abbaiano”. Se l’esito della richiesta può non piacervi, ha il merito di aprirvi il campo delle possibilità.

Oltre a questo Fugatto presenta strumenti più classici, ma altrettanto efficaci. È in grado di creare un estratto musicale basandosi su un comando testuale, aggiungere o rimuovere strumenti su una traccia audio o modificare l’accento o l’emozione di una voce.

Con una risposta così precisa, è sicuro che, senza controllo, questa nuova tecnologia rischia di causare nuove turbolenze tra i professionisti del suono e della voce.

Collegamento YouTube Iscriviti a Frandroid

Questo contenuto è bloccato perché non hai accettato cookie e altri tracker. Questo contenuto è fornito da YouTube.
Per poterlo visualizzare, devi accettare l’uso effettuato da YouTube con i tuoi dati che potranno essere utilizzati per i seguenti scopi: consentirti di visualizzare e condividere contenuti con i social media, promuovere lo sviluppo e il miglioramento dei prodotti di Humanoid e dei suoi partner, mostrarti annunci pubblicitari personalizzati in relazione al tuo profilo e alla tua attività, definire un profilo pubblicitario personalizzato, misurare le prestazioni degli annunci pubblicitari e dei contenuti su questo sito e misurare il pubblico di questo sito (ulteriori informazioni)

Facendo clic su “Accetto tutto”, acconsenti agli scopi sopra menzionati per tutti i cookie e altri tracker inseriti da Humanoid e dai suoi partner.

Puoi revocare il tuo consenso in qualsiasi momento. Per maggiori informazioni ti invitiamo a leggere la nostra Cookie Policy.

Accetto tutto

Gestisci le mie scelte

Per progettare questo strumento, Nvidia indica che si è basato sul lavoro precedente dei propri team in aree che vanno dalla modellazione vocale al vocoding audio.

Ars Tecnica specifica che Nvidia ha lavorato su una serie di raccolte audio open Source che rappresentano almeno 50.000 ore di audio. Nvidia è stata quindi in grado di costruire un modello con 2,5 miliardi di parametri consentendo a Fugatto di scegliere la migliore opzione possibile. Per perfezionare ulteriormente il proprio modello, Nvidia indica di essersi circondata di un gruppo di ricercatori provenienti da India, Brasile, Cina, Giordania e Corea del Sud.

Per il momento Nvidia non ha comunicato una data di rilascio per questo strumento, ma è possibile per gli appassionati di audio approfondire la documentazione di Fugatto disponibile sul proprio Github.

Vuoi trovare i migliori articoli di Frandroid su Google News? Puoi seguire Frandroid su Google News in un clic.