una miniera d’oro per le aziende di intelligenza artificiale

Man mano che l’uso delle tecnologie di intelligenza artificiale diventa sempre più diffuso, sta emergendo un dibattito sulla legittimità di determinate pratiche. Il massiccio sfruttamento dei sottotitoli di film e serie per addestrare queste IA solleva interrogativi sul rispetto del diritto d’autore. In questo contesto vengono individuate diverse grandi aziende tecnologiche.

Utilizzo dei sottotitoli per addestrare modelli linguistici

Da diversi anni colossi come Apple, Meta, Nvidia e Salesforce utilizzano notevoli quantità di dati per perfezionare i loro modelli linguistici. Tra questi dati ci sono i sottotitoli di una moltitudine di film e serie televisive. Secondo diverse fonti, queste ripetizioni dei dialoghi consentono ai modelli di imitare il linguaggio umano in modo colossale, al di là dei testi accademici o giornalistici.

Questo metodo si basa in particolare sull’inclusione dei sottotitoli in database come Il mucchioospitato su OpenSubtitles.org. Questa piattaforma offre più di 53.000 film e 85.000 episodi di serie, fornendo una nutrita libreria per gli sviluppatori di intelligenza artificiale.

Le aziende interessate e il loro approccio

Sono state identificate diverse aziende che utilizzano questo metodo. Questo è particolarmente il caso diAntropicoche utilizza questi sottotitoli per il suo diretto concorrente ChatGPT, Claude. Meta e Apple stanno facendo lo stesso per sviluppare rispettivamente le famiglie di modelli LLM e OPT. Anche altri player come Nvidia, Bloomberg ed EleutherAI stanno sfruttando questa massa di dati per rafforzare le proprie capacità di intelligenza artificiale.

Tutte queste aziende cercano di costruire sistemi in grado di generare dialoghi più naturali e umani. In effetti, “scrivere bene” è una risorsa rara nel mondo dei dati di addestramento dell’IA. Pertanto, attingere al dialogo scritto per i sottotitoli fornisce una preziosa finestra sulle sfumature e sui ritmi unici della conversazione parlata.

Un uso controverso e fonte di conflitti legali

Tuttavia, questo sfruttamento non è privo di controversie. Diverse azioni legali sono state intentate contro le aziende incriminate, accusate di utilizzare opere protette da copyright senza permesso. Sceneggiatori, autori e case editrici denunciano violazioni dei loro diritti. Il creatore di Breaking Bad, Vince Gilligan, ha definito la pratica “plagio straordinariamente complesso e ad alta intensità energetica” davanti al Copyright Office degli Stati Uniti.

A loro difesa, le aziende sostengono che l’addestramento dei sistemi di intelligenza artificiale su opere protette da copyright costituisce un uso corretto, sebbene questa affermazione attenda ancora la convalida legale finale. Dal punto di vista del diritto d’autore, i tribunali potrebbero considerare i sottotitoli come opere derivate, godendo così della stessa protezione contro la copia e la distribuzione illegali.

Il ruolo dei sottotitoli nelle prestazioni dell’intelligenza artificiale

Perché questa particolare scelta dei sottotitoli? Perché rappresentano una forma cruda ed essenziale di dialogo scritto. A differenza dei libri di testo o degli articoli scientifici, i sottotitoli catturano accuratamente il flusso, il tono e la cadenza delle conversazioni umane. Ciò consente ai chatbot, che si basano su questi dati, di produrre discorsi che suonano naturalmente umani.

Il contributo dei sottotitoli non si ferma qui. Questi frammenti di testo vengono utilizzati anche per modulare risposte generate automaticamente in diversi contesti: televisivo, cinematografico e persino educativo. Aiutano le intelligenze artificiali ad arricchire il loro repertorio linguistico, andando oltre i grandi classici della letteratura per rappresentare la diversità delle attuali interazioni verbali.

La posizione dei creatori originali

Sfortunatamente, questo uso dei sottotitoli pone un dilemma etico e legale. Da un lato, sviluppatori e ricercatori beneficiano di una ricchezza di informazioni linguistiche gratuite e accessibili. D’altra parte, scrittori e creatori vedono il loro lavoro utilizzato a loro insaputa, senza un’adeguata remunerazione.

Un’opinione condivisa dai rappresentanti degli autori britannici (WGGB), che chiedono una regolamentazione severa e l’istituzione di un compenso per gli autori colpiti da questa pratica. Anche alcuni creatori di dataset, come Jörg Tiedemann, esprimono preoccupazione per l’uso improprio del loro contributo iniziale, considerato utile ma ormai invasivo per il mercato creativo.