Questa è una delle osservazioni emerse al termine dei due giorni di convegno. puntoAIil 17 e 18 ottobre, alle Folies Bergère: dopo una fase segnata dall’ascesa dei modelli chiusi – quelli di OpenAI in testa – modelli più aperti cominciano a farsi spazio nel mercato dell’IA generativa.
“Un mercato enorme” per Google
Tra i recenti convertiti c’è Google, che offre servizi da febbraio 2024 una serie di modelli “aperti” per gli sviluppatori – continuando allo stesso tempo a concentrarsi sul modello proprietario Gemini. “Il mercato open Source è enorme. Qui è dove si trova la maggior parte degli sviluppatori”ha spiegato Armand Joulin, direttore della ricerca di Google Deepmind durante la conferenza. I modelli Gemma – questo il loro nome – hanno registrato più di 20 milioni di download in meno di sei mesi.
Per Google, che è stato lasciato indietro da OpenAI nella corsa all’intelligenza artificiale generativa, questo approccio aperto è anche un modo per recuperare parte del ritardo. Anche Meta, con i suoi modelli LLaMA, ha seguito la stessa strategia. Da parte sua, l’unicorno francese MistralAI aveva scelto fin dall’inizio l’open Source.
Oltre un milione di modelli su Hugging Face
“L’open Source applicato a modelli di grandi dimensioni consente alla comunità di costruire nel tempo modelli migliori, più piccoli e più efficienti. Questo è il motivo per cui l’open Source finisce quasi sempre per recuperare terreno”.stima Merve Noyan, Machine Learning Advocate Engineer presso Volto che abbraccia.
Questo pioniere dell’intelligenza artificiale open Source sa una o due cose: creato nel 2016 dai francesi Clément Delangue, Julien Chaumond e Thomas WolfHugging Face ha saputo riunire una comunità molto impegnata in tutto il mondo, che oggi è la sua forza. La piattaforma elenca più di 140.000 modelli per la generazione di testo, ad esempio, mentre sono disponibili più di un milione di modelli per altre attività, che vanno dalla visione artificiale al riconoscimento vocale automatico.
La fornitura di modelli e strumenti open Source consente a una comunità di ricercatori, sviluppatori e utenti di collaborare, sperimentare e migliorare i modelli esistenti, per ottimizzarli. L’accesso all’intelligenza artificiale è ora ampiamente facilitato dall’esistenza di numerose librerie e strumenti che semplificano lo sviluppo e l’implementazione dei modelli.
Dati sintetici per addestrare Moshi
Tuttavia, se i modelli sono “aperti”, o addirittura completamente open Source, non è così per i dati che vengono utilizzati per alimentarli. “Le aziende che pubblicano modelli generalmente non pubblicano dati, perché è da lì che deriva il vantaggio competitivo », nota Merve Noyan. Ma esistono soluzioni comunitarie, come la condivisione degli sforzi di raccolta e annotazione, in particolare tramite il “I dati sono migliori insieme” da Hugging Face – ovvero la generazione di nuovi dati, detti dati “sintetici”.
Questo è anche l’approccio adottato da Kyutai, il laboratorio di ricerca lanciato nel novembre 2023 da Xavier Niel, Eric Schmidt e Rodolphe Saadé. La sua intelligenza artificiale vocale chiamato Moshi è stato sviluppato utilizzando dati “prodotti” da un sistema di sintesi vocale in grado di clonare voci e generare dialoghi, al fine di compensare il basso volume di registrazioni audio disponibili per addestrare il modello.
Infatti, “Moshi è il primo modello vocale AI in tempo reale rilasciato come open Source”sottolinea Neil Zeghidour, cofondatore di Kyutai e già di Google Deepmind. Una scelta ovvia, poiché per Kyutai, il“l’obiettivo è incoraggiare e facilitare il più possibile l’adozione della tecnologia degli agenti vocali per scopi di ricerca e commercializzazione”.
In particolare, i ricercatori di Kyutai hanno pubblicato un documento di ricerca di 60 pagine contenente tutti i dettagli tecnici di Moshi, che consentirà ad altri di capire come funziona il modello e riprodurlo. A completamento di questo approccio di apertura e trasparenza è in corso di pubblicazione anche il modello di codice formativo.
Abbastanza per consentire alla giovane startup francese di imporsi come punto di riferimento di questa tecnologia su scala globale? Potenzialmente perché, come ci ricorda Merve Noyan, in termini di intelligenza artificiale “Niente affari [établie] no, nonvantaggio competitivo nel tempo».