La comica Sarah Silverman e i romanzieri Christopher Golden e Richard Kadrey hanno citato in giudizio OpenAI e Meta con l’accusa di aver violato il copyright delle loro opere. I tre autori sostengono che alcuni loro libri sarebbero stati utilizzati illegalmente da OpenAI e Meta per addestrare le rispettive intelligenze artificiali, cioè GPT e LLaMA.

Gli autori sostengono che entrambe le aziende hanno usato un dataset di ebook presi interamente da alcune shadow library come Bibliotik, Library Genesis e Z-Library. Sono siti da cui scaricare illegalmente gli ebook.

I tre autori accusano OpenAI e Meta di violazione del copyright, negligenza, arricchimento ingiusto e concorrenza sleale. Gli avvocati che rappresentano gli scrittori hanno portato a sostengo delle loro tesi alcune prove, tra cui la capacità di ChatGPT di riassumere i loro romanzi, in alcuni casi citando anche alcuni interi paragrafi. Una prova – sostengono – che il dataset dell’IA includerebbe intere porzioni dei loro libri.

Gli avvocati citano anche un documento di Meta, dove l’azienda descrive alcune delle fonti usate per addestrare il modello di linguaggio LLaMA. Tra queste compare anche ThePile, che è stato realizzato dall’azienda EleutherAI. A sua volta EleutherAI spiega di aver compilato il dataset raccogliendo miliardi di testi da numerose fonti diverse, tra cui proprio Bibliotik, una delle shadow library citate dall’azione legale. I tre scrittori ora chiedono di venire ricompensati per l’uso illecito dei loro testi.