Per crescere, l’intelligenza artificiale generativa si rivolge ai libri

Friday 22nd November 2024 12:43 AM

Parigi (awp/afp) – Preservare il diritto d'autore negoziando con le piattaforme: di fronte alle esigenze sempre crescenti dell'intelligenza artificiale generativa, anche il mondo dell'editoria inizia a stipulare contratti con i propri stakeholder per monetizzare i propri contenuti.

Il grande editore americano HarperCollins ha appena offerto ad alcuni dei suoi autori un contratto con una società di intelligenza artificiale (AI) – la cui identità è riservata – consentendo a quest'ultima di utilizzare i loro lavori pubblicati per addestrare il suo modello di intelligenza generativa artificiale.

In una lettera consultata dall'AFP, la società di intelligenza artificiale offre 2.500 dollari per ogni libro selezionato per addestrare il suo modello linguistico (LLM) per un periodo di tre anni.

Perché per poter produrre tutti i tipi di contenuti a partire da una semplice query nel linguaggio quotidiano, i modelli di intelligenza artificiale generativa devono essere alimentati con una quantità sempre crescente di dati.

Contattato, l'editore ha confermato l'operazione. “HarperCollins ha stipulato un accordo con una società di tecnologia di intelligenza artificiale per consentire l'uso limitato di alcuni titoli (…) per addestrare modelli di intelligenza artificiale, al fine di migliorare la qualità e le prestazioni dei modelli”, scrive.

La casa editrice spiega inoltre che l'accordo «regola chiaramente la produzione di modelli che rispettino il diritto d'autore».

L'offerta fu però diversamente apprezzata nel settore editoriale, e scrittori come l'americano Daniel Kibblesmith la declinarono seccamente: “Probabilmente lo farei per un miliardo di dollari. Lo farei per una somma di denaro che non mi richiederebbe più funzionare, poiché questo è l’obiettivo finale di questa tecnologia”, ha detto indignato l’autore sul social network Bluesky.

Nuovi materiali

Se HarperCollins è uno dei più grandi editori fino ad oggi a stringere questo tipo di accordo, non è il primo. L'editore americano di libri scientifici Wiley ha dato accesso “al contenuto di libri accademici e professionali pubblicati per uso specifico in modelli di formazione, per 23 milioni di dollari, ad una grande azienda tecnologica”, ha indicato nel marzo di quest'anno, presentando i suoi risultati finanziari.

Questo tipo di collaborazione mette in luce le problematiche legate allo sviluppo dell’intelligenza artificiale generativa, che si addestra su immense quantità di dati raccolti in rete con, di conseguenza, potenziali violazioni del diritto d’autore.

Per Giada Pistilli, responsabile etica di Hugging Face, una piattaforma di intelligenza artificiale franco-americana ad accesso aperto, questo annuncio è un passo avanti, poiché il contenuto dei libri è monetizzato. Ma si rammarica di un margine di trattativa limitato per gli autori.

“Quello che vedremo è un meccanismo per accordi bilaterali tra aziende di nuova tecnologia ed editori o titolari di copyright, mentre a mio avviso abbiamo bisogno di un dialogo più ampio per includere un po' più di stakeholder”, afferma.

“Partiamo da molto lontano”, commenta Julien Chouraqui, direttore giuridico del sindacato francese dell'editoria (SNE). “Questo è un progresso: il fatto che ci sia un accordo significa che c'è stato un dialogo e la volontà di raggiungere un equilibrio tra l'uso dei dati di origine, che sono soggetti a diritti e che genereranno valore”, dice.

Di fronte a queste domande anche gli editori si stanno organizzando. Alla fine del 2023, il quotidiano americano The New York Times ha avviato un procedimento contro OpenAI, creatore del software ChatGPT, nonché Microsoft, il suo principale investitore, per violazione del diritto d'autore. Altri media hanno stipulato accordi con OpenAI.

Le aziende tecnologiche potrebbero non avere più altra scelta per migliorare i propri prodotti se non quella di scavare in profondità, soprattutto quando iniziano a rimanere a corto di nuovi materiali per alimentare i modelli.

La stampa americana ha recentemente riferito che i nuovi modelli in sviluppo sembrano aver raggiunto i loro limiti, in particolare presso Google, Anthropic e OpenAI.

“Su Internet si raccolgono contenuti leciti, illeciti e molti contenuti piratati. Ciò pone un problema giuridico. Senza dimenticare il problema della qualità dei dati”, osserva Julien Chouraqui, della SNE: “se vogliamo sviluppare un mercato su basi virtuose, è quindi necessario coinvolgere tutti gli attori.”

afp/ib