I maghi di NVIDIA hanno appena svelato una tecnologia che sconvolgerà il mondo dell’audio. Il suo soprannome? Fugattoun modello di intelligenza artificiale che trasforma letteralmente qualsiasi suono su semplice richiesta testuale.
Questa versatile IA può destreggiarsi tra tutti i tipi di suoni: voci, musica, effetti sonori… Può generare nuovi suoni, modificare suoni esistenti o addirittura inventare suoni completamente nuovi che non esistono in natura.
Hai sognato di far miagolare una tromba? Per dare un accento italiano alla tua voce? O magari trasformare la tua vecchia demo acustica in una traccia elettronica potenziata? BENE Fugatto puoi farlo e molto altro ancora!
Il principio è sorprendentemente semplice: fornisci audio e/o una descrizione testuale di ciò che desideri e l’intelligenza artificiale si prende cura del resto. Ad esempio, potresti chiedergli “Fai suonare questa chitarra come se fosse suonata sott’acqua” O “Trasforma quella voce in quella di un robot malinconico”. E la cosa più affascinante è questa Fugatto capisce perfettamente queste istruzioni poetiche!
Ciò che rende questa tecnologia davvero incredibile è la sua versatilità perché, a differenza di altri modelli di intelligenza artificiale specializzati nella musica (ciao Suno) o nella voce, Fugatto eccelle in tutti i settori. Tutti i test dimostrano che corrisponde o supera i modelli specializzati nei rispettivi compiti, fornendo allo stesso tempo un’eccellente flessibilità.
Le potenziali applicazioni sono infinite… I produttori musicali saranno in grado di prototipare rapidamente diversi arrangiamenti, i creatori di videogiochi saranno in grado di generare paesaggi sonori dinamici che si adattano al gameplay, le agenzie pubblicitarie saranno in grado di adattare facilmente i loro spot con accenti diversi e gli sviluppatori di app saranno in grado di creare voci personalizzate. .
La vera abilità tecnica di Fugatto sta nella sua capacità di comporre istruzioni che non ha mai visto insieme durante la sua formazione. Ad esempio, puoi chiedergli di creare il suono di un temporale che si trasforma gradualmente in canto di uccelli o musica elettronica.
Questa versatilità si basa su un’architettura sofisticata con 2,5 miliardi di parametri, addestrati su oltre 50.000 ore di dati audio. Il team di ricercatori, guidato da Rafael Valle, ha sviluppato un approccio innovativo chiamato ComposableARTche consente un controllo preciso su ogni aspetto della generazione audio.
Questa tecnologia beneficia anche di una funzionalità di interpolazione che consente di misurare con precisione l’intensità degli effetti. Preferisci un accento marsigliese leggero piuttosto che uno forte? O una voce che cambia gradualmente da felice a triste? Questo modello può farlo con notevole finezza.
La diversità del team internazionale che ha sviluppato questa tecnologia, con ricercatori provenienti da India, Brasile, Cina, Giordania e Corea del Sud, ha contribuito notevolmente alle capacità multilingue e multi-accento del modello. Mi sarebbe piaciuto testare questa cosa ma NVIDIA non ha ancora annunciato una data di rilascio pubblica… SÌ!
Tuttavia, esistono già altre alternative: Meta offre un kit di sviluppo audio open Source e Google ha il proprio modello di conversione testo in musica chiamato MusicLM.
Lo avrai capito, Fugatto è un importante passo avanti che trasformerà sicuramente il modo in cui creiamo e manipoliamo il suono. Non vedo davvero l’ora di provarlo!
Scopri di più su Fugatto