Nvidia ha appena presentato un nuovissimo modello di intelligenza artificiale, in grado di generare e manipolare il suono utilizzando semplici query di testo. Se lo strumento non è ancora accessibile al pubblico, un primo assaggio suggerisce un enorme potenziale in termini di sound design.
Il gigante dei chip Nvidia continua a tracciare la sua strada nel campo dell’intelligenza artificiale generativa. Da diversi anni l’azienda è all’avanguardia grazie alle sue schede grafiche e ai chip per data center, particolarmente apprezzati per la formazione e l’inferenza dei diversi modelli alla base delle applicazioni di intelligenza artificiale generativa.
Ma l’azienda non è solo una progettista di hardware, tutt’altro. Al contrario, una parte almeno altrettanto importante del suo successo è dovuta al vasto ecosistema software che l’azienda ha sviluppato nel corso degli anni. Nel settore della progettazione grafica, della modellazione 3D, dell’animazione e degli effetti speciali, la sua piattaforma applicativa RTX è onnipresente e largamente dominante.
Se Nvidia ha già fatto un uso intensivo di diverse tecnologie di intelligenza artificiale per migliorare la resa grafica nei videogiochi, con il suo famoso DLSS, l’azienda non si limita più alle immagini. Dopo aver annunciato, lo scorso giugno, una suite di strumenti per “dare vita” a personaggi virtuali più grandi della vita, Nvidia ha appena svelato un progetto che potrebbe rivoluzionare un altro settore: quello del suono.
Nvidia Fugatto: un modello di intelligenza artificiale per generare e manipolare il suono
Il nuovo arrivato nella grande famiglia dei software Nvidia si chiama quindi Fugatto, abbreviazione di Trasformatore audio generativo fondamentale Opus 1. Questo nome poetico è sicuramente anche un riferimento al essendo fuggitoparola che designa una sezione musicale scritta nello stile di fuga, una tecnica compositiva i cui principi hanno una certa risonanza con quelli dei modelli di intelligenza artificiale.
Fugatto si presenta quindi come un modello fondativo dedicato alla generazione e trasformazione del suono, basato su interrogazioni testuali espresse in linguaggio naturale. Questo principio ricorda altre applicazioni orientate alla creazione musicale, come Suno. Ma laddove altre soluzioni mirano principalmente a creare brani completi e pronti all’uso, Fugatto prende una direzione leggermente diversa.
Il progetto di Nvidia in realtà sembra guardare più verso la sintesi audio (sintesi audio), progettazione del suono (progettazione del suono) e l’elaborazione del suono in generale. Piuttosto che una sorta di workstation audio digitale autonoma alimentata dall’intelligenza artificiale, Fugatto si posiziona più come un nuovo strumento ultraflessibile nella catena di produzione del suono e della musica, insieme a plugin e altri strumenti virtuali.
Fugatto, ad esempio, permette di estrarre determinate componenti sonore da un file audio, in modo da isolare voci, strumenti o rumori di sottofondo da una registrazione, per rielaborarli separatamente o integrarli in un altro progetto. Ma il modello può anche trasformare i file audio in modo sorprendente, applicando un accento o un’intonazione specifica a una registrazione vocale, o modulando il timbro di uno strumento per farlo “miagolare”, “urlare” o addirittura “ruggire”.
E ovviamente Fugatto è in grado di generare suoni completamente nuovi da istruzioni verbali scritte in linguaggio naturale. Nel video di presentazione vediamo (o meglio sentiamo) che il modello può generare paesaggi sonori complessi e in evoluzione, come un treno in avvicinamento che si trasforma gradualmente in un’orchestra sinfonica, o un temporale che lentamente svanisce fino a diventare il canto degli uccelli.
Questi pochi esempi dovrebbero bastare a suscitare l’interesse di qualunque amante della creazione musicale o progettazione del suono. Mentre ad alcuni piace passare ore a manipolare il loro sintetizzatore wavetable preferito per creare trame sonore uniche, altri preferiscono concentrarsi su aspetti come la composizione o l’arrangiamento, e l’arrivo di uno strumento come Fugatto dovrebbe quindi suonare come una benedizione per le loro orecchie.
Ma anche i tecnici del suono professionisti e gli appassionati di wave dilettanti potrebbero trovare quello che stanno cercando. Dopo aver creato un file toppa complesso sul suo synth preferito e ne ha scritto alcuni modelli suoni melodici ben sentiti, basterebbe mandare il tutto a Fugatto e dargli qualche istruzione per trasformare radicalmente i suoi campioni sonori, prima di reimportare il tutto nel suo sequenziatore.
Grandi possibilità in prospettiva quindi, ma che per il momento restano ipotetiche. Tutto dipenderà dal modello di distribuzione scelto da Nvidia: il modello potrà girare in locale, su una scheda grafica RTX ad esempio, o funzionerà solo online? Sarà solo un’app? autonomo (standalone) o sarà possibile integrarlo sotto forma di plugin nel vostro sequenziatore? E se sì, quali formati verranno offerti (CLAP, VST, AAX, ecc.)?
Tante domande che in questa fase non hanno risposta. Fugatto è attualmente un impressionante progetto di modello di intelligenza artificiale generativa, ma senza una data di rilascio annunciata. Dovremo quindi aspettare ancora un po’, e seguire i futuri annunci di Nvidia per saperne di più, magari durante il CES di gennaio 2025.