Dibattito su Copyright e IA: OpenAI Accusata di Violazione su Larga Scala da Autori di Libri

Autori si rivolgono alle Corti contro OpenAI: accusa di violazione di diritto d'autore su centinaia di migliaia di romanzi

Emergono nuove controversie legali nell'ambito dell'uso di opere protette da copyright per l'addestramento di sistemi di intelligenza artificiale (IA). Una recente causa contro OpenAI sottolinea come la questione si stia facendo sempre più pressante, questa volta sollevata da un gruppo di autori che sostengono che ChatGPT, il chatbot dell'IA di OpenAI, violi i diritti d'autore dei loro romanzi.

Foto di Markus Winkler su Unsplash

Negli Stati Uniti è stata presentata un'azione legale collettiva che accusa OpenAI di aver "raccolto massicce quantità" di opere protette da copyright "senza consenso, senza riconoscimento e senza compensazione". Gli autori ricercano un ordine giudiziario che confermi come l'azienda abbia violato i diritti degli scrittori quando ha scaricato illegalmente copie di libri per addestrare il suo sistema di IA.

Il nuovo campo di battaglia legale per le aziende di IA generative riguarda il materiale utilizzato per addestrare i loro sistemi, mentre le corti stanno cercando di capire se tale pratica possa essere considerata come un uso equo. OpenAI, infatti, è attualmente al centro di un'azione legale collettiva, la quale afferma che le miliardi di linee di codice informatico analizzate dalla sua tecnologia IA per generare il proprio codice, si qualifichino come violazione del diritto d'autore.

La causa presentata dagli autori sostiene che ChatGPT generi riassunti dei loro romanzi quando sollecitato, affermando che "ciò è possibile solo se ChatGPT è stato addestrato sulle opere protette da copyright dei querelanti".

Inoltre, poiché il sistema di IA non può funzionare senza le informazioni estratte dal materiale, i programmi software noti come modelli di linguaggio di grandi dimensioni che alimentano ChatGPT "sono di per sé opere derivate che violano i diritti, realizzate senza il permesso dei querelanti e in violazione dei loro diritti esclusivi secondo la Copyright Act".

La querela enfatizza come gli autori abbiano problemi con OpenAI che scarica illegalmente centinaia di migliaia di libri per addestrare il suo sistema di IA. Nel giugno 2018, l'azienda ha rivelato di aver alimentato GPT-1 - la prima iterazione del suo modello di linguaggio di grandi dimensioni - con una raccolta di oltre 7.000 romanzi su BookCorpus, raccolti da un team di ricercatori di IA.

"Hanno copiato i libri da un sito web chiamato Smashwords.com che ospita romanzi inediti disponibili gratuitamente per i lettori", afferma il reclamo. "Tuttavia, quei romanzi sono in gran parte protetti da copyright. Sono stati copiati nel dataset di BookCorpus senza consenso, riconoscimento o compenso agli autori".

Biblioteche ombra illegali

Versioni successive dei grandi modelli di linguaggio di OpenAI sono stati addestrati su quantità maggiori di opere protette da copyright, secondo quanto riportato nella querela. In un documento del 2020 che introduceva GPT-3, l'azienda ha rivelato che il 15% del suo dataset di addestramento proveniva da "due corpora di libri basati su internet" che ha semplicemente chiamato "Books1" e "Books2". Sebbene non abbia mai rivelato quali opere facevano parte di quei dataset, gli autori sostengono che provenissero da "noti siti di biblioteche ombra", come Library Genesis, Z-Library, Sci-Hub e Bibliotik.

Queste "biblioteche ombra illegali" hanno da tempo suscitato l'interesse della comunità di addestramento dell'IA: ad esempio, un dataset di addestramento dell'IA pubblicato nel dicembre 2020 da EleutherAI denominato "Books3" include una riproduzione della raccolta di Bibliotik e contiene quasi 200.000 libri, scrive l'avvocato degli autori Joseph Saveri, che rappresenta anche i programmatori nella proposta azione collettiva contro OpenAI e Microsoft.

Ricordo che dal 2022, OpenAI non divulga più informazioni sulle fonti del suo dataset.

La causa, che cerca di rappresentare una classe nazionale di centinaia di migliaia di autori negli Stati Uniti, è stata avviata da Paul Tremblay e Mona Awad. Tremblay è l'autore del romanzo "The Cabin at the End of the World", adattato da M. Night Shyamalan in "Knock at the Cabin". Il reclamo menziona la violazione diretta del diritto d'autore, la violazione vicaria del diritto d'autore, le violazioni del Digital Millennium Copyright Act, l'arricchimento ingiusto e la negligenza.

OpenAI e Microsoft, che possiede una parte della società di IA, non hanno ancora risposto alle richieste di commento.

Durante un'audizione di maggio davanti al sottocomitato della Camera sulla Giustizia, Proprietà Intellettuale e Internet, esaminando l'intersezione tra IA e legge sul diritto d'autore, figure chiave di Hollywood hanno sostenuto la necessità di una legislazione per bloccare la raccolta diffusa e non autorizzata delle loro opere per l'addestramento di sistemi di IA.

Ashley Irwin, presidente della Society of Composers and Lyricists, ha affermato durante l'audizione: 

"L'introduzione rapida dei sistemi di IA generativa è vista come una minaccia esistenziale per la sopravvivenza e la continuità delle nostre professioni creative a meno che non si intervenga immediatamente su fronti legali, interpretativi ed economici per affrontare questi problemi emergenti. È essenziale dare priorità a politiche e regolamenti per salvaguardare la proprietà intellettuale e il diritto d'autore dei creatori e preservare il variegato e dinamico panorama culturale degli Stati Uniti".
Irwin ha sottolineato che le aziende di IA dovrebbero essere tenute ad ottenere il consenso dei creatori per l'uso delle loro opere nell'addestramento di programmi di IA e compensarli a tariffe di mercato per qualsiasi nuova opera successivamente creata, oltre a fornire il dovuto riconoscimento.

Riflessione personale

Questo caso porta alla luce molteplici sfaccettature del dibattito sul copyright nel contesto dell'IA. Viene messo in evidenza una delle questioni più spinose nel campo della proprietà intellettuale: il bilanciamento tra la protezione dei diritti dei creatori e l'innovazione tecnologica.

Da una parte, il diritto d'autore serve a proteggere gli interessi economici e morali dei creatori, incoraggiando la creatività e l'innovazione culturale. Dall'altra, l'innovazione tecnologica, in particolare nell'IA, può portare a sviluppi che sfidano le normative esistenti in termini di utilizzo e distribuzione di contenuti protetti da copyright.

La questione centrale in questo dibattito è se l'utilizzo di opere protette da copyright per l'addestramento di IA possa essere considerato come "uso equo" - una dottrina legale che consente l'uso limitato di materiale protetto da copyright senza necessità di permesso dell'autore.

Nel caso specifico, è evidente che i problemi emergono quando un'azienda come OpenAI utilizzi opere protette da copyright per addestrare i suoi modelli di linguaggio, creando così potenziali opere derivate. C'è un bisogno impellente di aggiornare le leggi esistenti o di creare nuove normative per affrontare queste sfide. Allo stesso tempo, è importante garantire che tali regolamentazioni non soffochino l'innovazione nel campo dell'IA.

In questo contesto, una soluzione potrebbe essere quella di sviluppare un sistema di licenze che permetta alle aziende di IA di utilizzare opere protette da copyright per l'addestramento dei loro sistemi, garantendo allo stesso tempo una giusta compensazione per gli autori. Questo garantirebbe un equilibrio tra la protezione dei diritti dei creatori e l'innovazione tecnologica.

Tuttavia, la questione è complessa e richiede un dibattito aperto e inclusivo tra tutte le parti interessate, compresi legislatori, esperti di diritto d'autore, aziende di IA, autori e il pubblico. La risoluzione di queste sfide sarà fondamentale per plasmare il futuro dell'intelligenza artificiale e del diritto d'autore.

Posta un commento