Durante una recente intervista al CES, Elon Musk ha affermato che l’intelligenza artificiale ha praticamente esaurito tutti i dati di addestramento disponibili nel mondo reale, indicando che la generazione di dati sintetici è la strada principale da percorrere per tutti i dati di addestramento disponibili nel mondo reale, indicando che la generazione di dati sintetici è la via principale da seguire. Questa idea è coerente con le parole dell’ex direttore scientifico di OpenAI Ilya Sutskever, che ha parlato di un “picco di dati” nello sviluppo dell’IA.
Musk ritiene che esauriremo i dati prodotti dall’uomo entro il 2024. In qualità di CEO di Tesla e proprietario di xAI, ha sottolineato che la soluzione più pratica per far progredire l’intelligenza artificiale è consentire all’intelligenza artificiale di creare i propri dati di addestramento. Questo metodo consente ai sistemi di intelligenza artificiale di automonitorarsi e apprendere mentre procedono.
Molte grandi aziende tecnologiche sono già saltate sul carro dei dati sintetici. Il nuovo modello Phi-4 di Microsoft, ad esempio, si basa su una combinazione di dati sintetici e reali, mentre Google utilizza una strategia simile per i suoi modelli Gemma. Anche il modello Claude 3.5 Sonnet di Anthropic e l’ultima serie Llama di Meta si basano su dati generati dall’intelligenza artificiale.
Inoltre, gli analisti di Gartner prevedono che entro il 2024 circa il 60% dei dati utilizzati nei progetti di intelligenza artificiale e analisi saranno sintetici. Uno dei motivi principali di questo sviluppo è il costo. La startup AI Writer afferma di aver speso circa 700.000 dollari per sviluppare il suo modello Palmyra X 004, che è molto più economico dei 4,6 milioni di dollari stimati per costruire un modello OpenAI comparabile.
Ma i dati sintetici non sono esenti da problemi. I ricercatori avvertono del rischio di “collasso del modello”, in cui l’intelligenza artificiale potrebbe diventare meno inventiva e più parziale. Questo problema può sorgere se le distorsioni nel set di dati originale vengono amplificate quando l’intelligenza artificiale inizia a produrre nuovi dati da sola.
Tecnologia