A causa dell'intelligenza artificiale, il web sta chiudendo sempre più

- -
>>

Flusso di dati che costituisce un'IA (illustrazione). INGRAM / FOTONONSTOP

L'arrivo di ChatGPT, a novembre 2022, continua ad avere conseguenze, immaginate o reali. Tra queste ultime, un gruppo di accademici indipendenti, Data Provenance Initiative, ne ha appena individuata una, del tutto inaspettata: l'inaridimento delle fonti da cui attingono i sistemi di intelligenza artificiale generativa che lo strumento dell'azienda americana OpenAI ha reso popolari. Più precisamente, nel suo preprint sottoposto a una conferenza a luglio, questo team ha misurato la misura in cui un numero significativo di siti, tra i più visitati al mondo (Il New York Times, HuffPost, Il Guardiano…), ora proibiscono gli strumenti di recupero automatico dei dati, o strisciare in inglese, per accedere alle loro informazioni. Ed è da questi dati che vengono creati enormi corpora per addestrare intelligenze artificiali come ChatGPT, Gemini, Copilot, Le Chat, Llama, Claude… Più grandi sono i corpora, migliori sono i risultati, anche se conta anche la “qualità”.

Leggi anche | Articolo riservato ai nostri abbonati All'interno della creazione dell'intelligenza artificiale generativa

Aggiungi alle tue selezioni

Per arrivare a questa osservazione della chiusura del Web, i ricercatori hanno studiato tre corpora ampiamente utilizzati per lo sviluppo dell'IA, C4, RefinedWeb e Dolma, contenenti miliardi di “token” (o unità lessicali, sillabe o persino parole) di decine di milioni di siti Internet (media, forum, enciclopedie, commercianti online, siti personali o universitari, social network, ecc.). Hanno anche raccolto due tipi di informazioni su questi siti per sapere cosa autorizzano o meno: le loro condizioni generali di utilizzo (CGU) e un file chiamato “robots.txt”, che il robot-crawler dovrebbero “leggere” per determinare se hanno il diritto di raccogliere dati o meno (ma un “divieto” potrebbe anche non essere rispettato).

Lista nera

La prima osservazione è che i divieti formulati in robots.txt stanno “esplodendo” a partire dal 2023. Quasi il 30% dei siti più grandi ora li usa, rispetto a un 2% scarso in precedenza. In termini di volume di dati, i ricercatori stimano che oltre il 30% dei token dei 3.950 siti più grandi nei corpora C4 e RefinedWeb siano ora interessati da restrizioni.

Non tutti i crawler sono trattati allo stesso modo: il 25,9% dei token C4 è bannato per i robot OpenAI, mentre solo il 13,3% è bannato per i robot Anthropic o il 4,1% per i robot Meta. Di recente, molti editori hanno annunciato che stanno bloccando uno degli ultimi robot sul mercato, quello di Apple.

I ricercatori notano anche che un'organizzazione non-profit americana, Common Crawl, è anch'essa nella lista nera di molti siti. È vero che i suoi dati vengono utilizzati per costruire i corpora C4, RefinedWeb, FineWeb, Dolma, ecc., che a loro volta possono essere utilizzati dalle aziende a scopo di lucro per sviluppare i loro sistemi. Ma i divieti colpiscono anche i crawler di Internet Archive, un servizio di “memoria” web non commerciale.

Hai ancora il 53,38% di questo articolo da leggere. Il resto è riservato agli abbonati.

-

PREV Tra i titoli AI con le peggiori performance della settimana precedente – Il mio blog
NEXT L'Uganda seppellisce e piange l'atleta Rebecca Cheptegei, vittima di femminicidio – Il mio blog