Verso un gap di dati per l’intelligenza artificiale?

Questo sarebbe un problema con conseguenze ben maggiori per lo sviluppo di queste intelligenze artificiali generative come ChatGPT: perché per “addestrarle” abbiamo potuto nutrirle finora con quantità astronomiche di informazioni disponibili su Internet, e dati in continuo crescita. È grazie a loro che ChatGPT e altre applicazioni del genere possono produrre testi o immagini a velocità fenomenale: queste IA generative hanno la capacità di “prevedere” una risposta a una domanda, una sequenza di parole o un pixel, da una massa di dati che mettiamo a loro disposizione.

Ma anche Internet non è infinita: e già da due anni gli esperti prevedevano che ne avremmo raggiunto i limiti abbastanza rapidamente. I “contenuti di alta qualità” utilizzabili per alimentare queste applicazioni saranno raggiunti nel 2026, secondo una valutazione sommaria effettuata nell’ottobre 2022 da un gruppo di ricercatori della società EpochAI. Lo stesso gruppo ha pubblicato una stima nel 2024 ponendo questo limite nel 2028, ma la differenza sta nel modo in cui definiamo “contenuti di alta qualità”.

Nella loro ultima stima, la dimensione dei database utilizzati per addestrare l’intelligenza artificiale cresce del 100% all’anno, mentre la dimensione dei contenuti “utilizzabili” su Internet cresce solo del 10% all’anno – quindi un “collo di bottiglia”. “Strangolamento imminente”.

Una delle soluzioni più preoccupanti sarebbe quella di continuare ad “addestrare” le IA generative, ma con contenuti progettati… da altre IA generative. Tuttavia, se già mancano soluzioni per limitare la produzione di false informazioni da parte di queste IA, entriamo in un territorio ancora più vago se le IA devono nutrirsi di contenuti creati dalle IA.

Diritti d’autore

Forse abbiamo già iniziato a entrare in questo collo di bottiglia, commentato a dicembre nella rivista Naturail ricercatore Shayne Longpre che, presso il Massachusetts Institute of Technology, sta conducendo un progetto per valutare la qualità dei dati utilizzati per alimentare l’intelligenza artificiale.

Allo stesso tempo, alcuni proprietari di questi dati disponibili su Internet – come gli editori di giornali – hanno iniziato a chiedere alle società di intelligenza artificiale di pagare loro delle royalties per l’utilizzo dei loro contenuti – considerando che questi contenuti dovrebbero generare entrate. crescita esponenziale per le aziende IT. IL New York Times è stata la prima, nel dicembre 2023, a citare in giudizio la società OpenAI e il suo partner Microsoft; nell’aprile 2024, otto giornali americani hanno intentato una causa congiunta.

Gli autori della valutazione del 2022 sono stati anche attenti a distinguere i contenuti di “qualità”, che includevano libri, resoconti giornalistici, ricerca scientifica e codice informatico – questi contenuti hanno in comune il fatto di essere economicamente costosi da produrre, a differenza del testo generato dall’intelligenza artificiale.

Esistono anche produzioni di qualità inferiore, che vanno dai video di YouTube ai testi di ogni genere che circolano sui forum di Facebook, ai messaggi di WhatsApp, ecc.: la quantità totale di quest’altra parte di informazioni è difficile da misurare, ma i progettisti di un’intelligenza artificiale su cui si suppone che il pubblico faccia affidamento su informazioni affidabili, ma potrebbe esitare a lasciarsi sopraffare da contenuti di qualità inferiore.

Diritti d’autore

Related posts