Le intelligenze artificiali a corto di carburante: un vero vicolo cieco tecnologico?
In una recente intervista su “La somma totale della conoscenza umana è stata sfruttata per addestrare le IA. Questo è successo l’anno scorso”, ha detto. Questa situazione spinge i ricercatori a esplorare nuove soluzioni, compreso l’uso di dati sintetici, con conseguenze ancora poco comprese.
Perché i dati umani non bastano più?
I moderni modelli di intelligenza artificiale, come ChatGPT o Bard, richiedono enormi volumi di dati per funzionare in modo efficace. Questi dati includono libri, articoli scientifici, conversazioni online e molte altre fonti di informazione. Tuttavia, con la crescita esponenziale delle esigenze di modelli generativi, la quantità di nuovi dati qualitativi disponibili diventa insufficiente.
In cifre:
Origine dati | Volume disponibile nel 2022 (espresso in Terabyte) | Fabbisogno stimato nel 2024 |
---|---|---|
Testi accademici | 50 | 200 |
Contenuti web (blog, forum) | 800 | 2 500 |
Letteratura e archivi | 200 | 1 000 |
Di fronte a questa carenza, i ricercatori si rivolgono ai dati artificiali, creati da altre IA, per continuare ad alimentare questi modelli.
Dati sintetici: una soluzione a doppio taglio
I dati sintetici sono costituiti da informazioni generate artificialmente per imitare i dati reali. Sebbene questo approccio offra molti vantaggi, non è privo di rischi.
Vantaggi:
- Costi ridotti : Addestrare un’intelligenza artificiale con dati sintetici spesso costa meno. Ad esempio, la startup Writer ha tagliato di sei volte i costi di formazione del suo modello Palmyra X 004, da 4,6 milioni di dollari a 700.000 dollari.
- Maggiore disponibilità : I dati sintetici possono essere creati all’infinito, consentendo una flessibilità senza precedenti.
- Rispetto della privacy : Questi dati non comportano informazioni personali reali, il che riduce le questioni etiche.
Rischi:
- Allucinazioni : I modelli possono produrre risultati errati quando si basano su dati imperfetti o distorti. Ciò aumenta il rischio di fallimenti sistemici, chiamati “collasso del modello” o collasso del modello.
- Pregiudizi in aumento : I dati sintetici spesso riproducono e amplificano i pregiudizi presenti nei dati originali.
- Perdita di creatività : Le IA addestrate esclusivamente su dati artificiali potrebbero perdere la capacità di offrire risposte originali.
Possibili conseguenze per il futuro dell’IA
Il maggiore utilizzo di dati sintetici potrebbe portare a importanti conseguenze:
- Un ritorno alle origini? Le aziende potrebbero essere costrette a reinventare i propri approcci, utilizzando modelli più compatti e mirati.
- La collaborazione matura : La condivisione dei dati tra organizzazioni potrebbe diventare essenziale per aggirare le attuali limitazioni.
- Norme etiche : È necessario istituire quadri giuridici più rigorosi per limitare potenziali abusi.
Cosa dicono gli esperti?
I ricercatori, come quelli dell’Università di Stanford, avvertono che la qualità dei risultati dell’intelligenza artificiale potrebbe peggiorare se non viene risolto il problema della dipendenza dai dati sintetici. Uno studio (disponibile qui) indica che i modelli addestrati su oltre il 50% di dati artificiali mostrano un aumento significativo degli errori fattuali.
Conclusione: verso un futuro ibrido per l’IA?
Man mano che i limiti dei dati umani diventano chiari, i dati sintetici emergono come una soluzione temporanea, ma lungi dall’essere perfetta. Il futuro dell’intelligenza artificiale risiederà probabilmente in una combinazione di approcci, sfruttando sia dati reali che sintetici, rimanendo vigili rispetto alle sfide etiche e tecniche.
France
Tech