Autori si rivolgono alle Corti contro OpenAI: accusa di violazione di diritto d'autore su centinaia di migliaia di romanzi
Emergono nuove controversie legali nell'ambito dell'uso di opere protette da copyright per l'addestramento di sistemi di intelligenza artificiale (IA). Una recente causa contro OpenAI sottolinea come la questione si stia facendo sempre più pressante, questa volta sollevata da un gruppo di autori che sostengono che ChatGPT, il chatbot dell'IA di OpenAI, violi i diritti d'autore dei loro romanzi.
![]() |
Foto di Markus Winkler su Unsplash |
Negli Stati Uniti è stata presentata un'azione legale collettiva
che accusa OpenAI di aver "raccolto massicce quantità" di opere protette da
copyright "senza consenso, senza riconoscimento e senza compensazione". Gli
autori ricercano un ordine giudiziario che confermi come l'azienda abbia
violato i diritti degli scrittori quando ha scaricato illegalmente copie di
libri per addestrare il suo sistema di IA.
Il nuovo campo di
battaglia legale per le aziende di IA generative riguarda il materiale
utilizzato per addestrare i loro sistemi, mentre le corti stanno cercando di
capire se tale pratica possa essere considerata come un uso equo. OpenAI,
infatti, è attualmente al centro di un'azione legale collettiva, la quale
afferma che le miliardi di linee di codice informatico analizzate dalla sua
tecnologia IA per generare il proprio codice, si qualifichino come violazione
del diritto d'autore.
La causa presentata dagli autori sostiene che ChatGPT generi riassunti dei
loro romanzi quando sollecitato, affermando che "ciò è possibile solo se
ChatGPT è stato addestrato sulle opere protette da copyright dei querelanti".
Inoltre, poiché il sistema di IA non può funzionare senza le
informazioni estratte dal materiale, i programmi software noti come modelli di
linguaggio di grandi dimensioni che alimentano ChatGPT "sono di per sé opere
derivate che violano i diritti, realizzate senza il permesso dei querelanti e
in violazione dei loro diritti esclusivi secondo la Copyright Act".
La querela enfatizza come gli autori abbiano problemi con OpenAI
che scarica illegalmente centinaia di migliaia di libri per addestrare il suo
sistema di IA. Nel giugno 2018, l'azienda ha rivelato di aver alimentato GPT-1
- la prima iterazione del suo modello di linguaggio di grandi dimensioni - con
una raccolta di oltre 7.000 romanzi su BookCorpus, raccolti da un team di
ricercatori di IA.
"Hanno copiato i libri da un sito web chiamato Smashwords.com che ospita romanzi inediti disponibili gratuitamente per i lettori", afferma il reclamo. "Tuttavia, quei romanzi sono in gran parte protetti da copyright. Sono stati copiati nel dataset di BookCorpus senza consenso, riconoscimento o compenso agli autori".
Biblioteche ombra illegali
Versioni successive dei grandi modelli di linguaggio di OpenAI sono stati
addestrati su quantità maggiori di opere protette da copyright, secondo quanto
riportato nella querela. In un documento del 2020 che introduceva GPT-3,
l'azienda ha rivelato che il 15% del suo dataset di addestramento proveniva da
"due corpora di libri basati su internet" che ha semplicemente chiamato
"Books1" e "Books2". Sebbene non abbia mai rivelato quali opere facevano parte
di quei dataset, gli autori sostengono che provenissero da "noti siti di
biblioteche ombra", come Library Genesis, Z-Library, Sci-Hub e Bibliotik.
Queste
"biblioteche ombra illegali" hanno da tempo suscitato l'interesse della
comunità di addestramento dell'IA: ad esempio, un dataset di addestramento
dell'IA pubblicato nel dicembre 2020 da EleutherAI denominato "Books3" include
una riproduzione della raccolta di Bibliotik e contiene quasi 200.000 libri,
scrive l'avvocato degli autori Joseph Saveri, che rappresenta anche i
programmatori nella proposta azione collettiva contro OpenAI e Microsoft.
Ricordo che dal 2022, OpenAI non divulga più informazioni sulle fonti del
suo dataset.
La causa, che cerca di rappresentare una classe nazionale di
centinaia di migliaia di autori negli Stati Uniti, è stata avviata da Paul
Tremblay e Mona Awad. Tremblay è l'autore del romanzo "The Cabin at the End of
the World", adattato da M. Night Shyamalan in "Knock at the Cabin". Il reclamo
menziona la violazione diretta del diritto d'autore, la violazione vicaria del
diritto d'autore, le violazioni del Digital Millennium Copyright Act,
l'arricchimento ingiusto e la negligenza.
OpenAI e Microsoft, che
possiede una parte della società di IA, non hanno ancora risposto alle
richieste di commento.
Durante un'audizione di maggio davanti al
sottocomitato della Camera sulla Giustizia, Proprietà Intellettuale e
Internet, esaminando l'intersezione tra IA e legge sul diritto d'autore,
figure chiave di Hollywood hanno sostenuto la necessità di una legislazione
per bloccare la raccolta diffusa e non autorizzata delle loro opere per
l'addestramento di sistemi di IA.
Ashley Irwin, presidente della
Society of Composers and Lyricists, ha affermato durante l'audizione:
"L'introduzione rapida dei sistemi di IA generativa è vista come una minaccia esistenziale per la sopravvivenza e la continuità delle nostre professioni creative a meno che non si intervenga immediatamente su fronti legali, interpretativi ed economici per affrontare questi problemi emergenti. È essenziale dare priorità a politiche e regolamenti per salvaguardare la proprietà intellettuale e il diritto d'autore dei creatori e preservare il variegato e dinamico panorama culturale degli Stati Uniti".Irwin ha sottolineato che le aziende di IA dovrebbero essere tenute ad ottenere il consenso dei creatori per l'uso delle loro opere nell'addestramento di programmi di IA e compensarli a tariffe di mercato per qualsiasi nuova opera successivamente creata, oltre a fornire il dovuto riconoscimento.
Riflessione personale
Questo caso porta alla luce molteplici sfaccettature del dibattito sul
copyright nel contesto dell'IA. Viene messo in evidenza una delle questioni
più spinose nel campo della proprietà intellettuale:
il bilanciamento tra la protezione dei diritti dei creatori e l'innovazione
tecnologica.
Da una parte, il diritto d'autore serve a proteggere gli
interessi economici e morali dei creatori, incoraggiando la creatività e
l'innovazione culturale. Dall'altra, l'innovazione tecnologica, in particolare
nell'IA, può portare a sviluppi che sfidano le normative esistenti in termini
di utilizzo e distribuzione di contenuti protetti da copyright.
La
questione centrale in questo dibattito è se l'utilizzo di opere protette da
copyright per l'addestramento di IA possa essere considerato come "uso equo" -
una dottrina legale che consente l'uso limitato di materiale protetto da
copyright senza necessità di permesso dell'autore.
Nel caso
specifico, è evidente che i problemi emergono quando un'azienda come OpenAI
utilizzi opere protette da copyright per addestrare i suoi modelli di
linguaggio, creando così potenziali opere derivate. C'è un bisogno impellente
di aggiornare le leggi esistenti o di creare nuove normative per affrontare
queste sfide. Allo stesso tempo, è importante garantire che tali
regolamentazioni non soffochino l'innovazione nel campo dell'IA.
In
questo contesto, una soluzione potrebbe essere quella di sviluppare un sistema
di licenze che permetta alle aziende di IA di utilizzare opere protette da
copyright per l'addestramento dei loro sistemi, garantendo allo stesso tempo
una giusta compensazione per gli autori. Questo garantirebbe un equilibrio tra
la protezione dei diritti dei creatori e l'innovazione tecnologica.
Tuttavia,
la questione è complessa e richiede un dibattito aperto e inclusivo tra tutte
le parti interessate, compresi legislatori, esperti di diritto d'autore,
aziende di IA, autori e il pubblico. La risoluzione di queste sfide sarà
fondamentale per plasmare il futuro dell'intelligenza artificiale e del
diritto d'autore.