Un team di ricercatori di intelligenza artificiale generativa di Nvidia ha creato un vero e proprio coltellino svizzero audio, che consente agli utenti di controllare l’uscita audio semplicemente utilizzando un comando di testo.
Sebbene alcuni modelli di intelligenza artificiale possano comporre una canzone o modificare una voce, nessuno ha la destrezza di questo nuovo modello.
Battezzato Fugatto (abbreviazione di Ffondamentale Trasformatore Audio Generativo Opus 1)genera o trasforma qualsiasi combinazione di musica, voci e suoni descritti utilizzando comandi di testo utilizzando qualsiasi combinazione di testi e file audio.
Immagina una tromba miagolante!
Ad esempio, può creare un campione di musica da un testo, rimuovere o aggiungere strumenti a una canzone esistente, modificare l’enfasi o l’emozione di una voce e persino consentire alle persone di produrre suoni che non hanno mai sentito prima.
Nvidia afferma che il suo nuovo editor musicale AI può creare “suoni mai sentiti prima”, come il miagolio di una tromba. Lo strumento, chiamato Fugatto, è in grado di generare musica, suoni e parlato da testo e input audio su cui non è mai stato addestrato.
Screenshot di un semplice comando di testo per creare melodie pazzesche!
Nvidia (YouTube)
Oppure un sassofono che urla, abbaia, poi musica elettronica con cani che abbaiano
Come mostrato nel video qui sotto, questo permette a Fugatto di comporre canzoni basate su suggerimenti del tutto stravaganti, come “Crea un sassofono che ulula, abbaia, poi musica elettronica con cani che abbaiano” (2 min 38 s).
Può persino trasformare il suono della voce di una persona, cambiando il suo accento o dandole un tono diverso, come arrabbiato o calmo. È anche possibile modificare la musica, poiché Fugatto può isolare le voci in una canzone, aggiungere strumenti e persino cambiare una melodia sostituendo un pianoforte con un cantante d’opera.
Esistono già diversi altri strumenti audio AI, ma non possono creare suoni completamente nuovi e unici, come mostrato in questa tabella comparativa in un documento pubblicato da Nvidia.
Confronto del generatore audio Fugatto con i suoi concorrenti
Nvidia
Per creare Fugatto, i ricercatori di Nvidia hanno dovuto raccogliere un set di dati contenente milioni di campioni audio. Hanno quindi creato istruzioni “che hanno ampliato in modo significativo la gamma di attività che il modello poteva eseguire, ottenendo prestazioni più accurate e consentendo nuove attività senza richiedere dati aggiuntivi”.
Nvidia non dice quando – o se – lo strumento sarà ampiamente disponibile.
Related News :