ChatGPT ha imparato a scrivere leggendo i quotidiani. Ora gli editori vogliono essere pagati

Per anni aziende come OpenAI hanno usato i contenuti dei quotidiani e degli scrittori per addestrare in gran segreto le loro intelligenze artificiali generative. Ora gli editori americani vogliono passare all’incasso.

OpenAI, l’azienda fondata da Sam Altman dietro a ChatGPT e Dall-E, ha aperto un dialogo con le aziende che possiedono quotidiani come il New York Times e il Washington Post. Queste ultime vogliono una fetta di un mercato che potrebbe presto valere oltre 1300 miliardi di dollari. Ma l’esito delle trattative è tutto fuorché certo. Solamente nei primi tre mesi del 2023, il settore delle IA generative ha raccolto investimenti per oltre 16 miliardi di dollari.

Il braccio di ferro tra quotidiani e aziende tech

Da agosto, almeno 535 organizzazioni di notizie, tra cui il New York Times, Reuters e il Washington Post, hanno installato un blocco che impedisce che i loro contenuti vengano raccolti e utilizzati per addestrare ChatGPT.

Senza una fonte pressoché inesauribile di contenuti come quella offerta dai quotidiani, addestrare e migliorare i grandi modelli linguistici potrebbe diventare molto più complicato.

Secondo il Washington Post, dalle trattative con OpenAI gli editori sperano di riuscire ad ottenere due risultati. Il primo è, banalmente, quello di farsi pagare: se l’azienda vuole accedere al loro database di contenuti, allora deve ricompensarli con un equo compenso. Il secondo, invece, prevede che le IA citino i quotidiani – con un link diretto alla notizia – ogni volta che usano i loro contenuti come fonte. Si tratterebbe di una vittoria importante per un settore, quello dell’editoria, in profonda difficoltà.

A luglio, Open AI ha già siglato un primo e importante accordo per usare in licenza i contenuti dell’Associated Press per addestrare i suoi modelli di intelligenza artificiale.

I quotidiani non sono gli unici a volere una fetta della torta in cambio dell’uso dei loro contenuti. Anche Reddit, che recentemente ha iniziato a chiedere soldi per l’uso delle sue API, provocando un forte mal contento trai suoi utenti, ha aperto un dialogo con OpenAI.

Sempre il Washington Post scrive che se non si raggiungerà un accordo, Reddit sta prendendo in considerazione l’idea di bloccare i crawler di ricerca di Google e Bing, il che impedirebbe al forum di essere scoperto nelle ricerche e ridurrebbe il numero di visitatori al sito.

La denuncia degli scrittori americani

Ma gli editori dei quotidiani e le agenzie stampa non sono l’unica spina del fianco che minaccia aziende come OpenAI. Anche gli artisti e gli scrittori sono sul piede di guerra.

John Grisham, Jodi Picoult e George R.R. Martin fanno parte di un gruppo di 17 grossi autori che a settembre hanno citato in giudizio OpenAI, che accusano di aver “sistematicamente saccheggiato” l’editoria su larga scala, utilizzando le loro opere coperte da copyright senza autorizzazione.

Il gruppo ha presentato una causa in un tribunale federale di New York, affermando che ChatGPT costituisce una “massiccia impresa commerciale” basata sul “furto sistematico su vasta scala” delle loro opere. La causa è stata organizzata dall’Authors Guild e include autori come David Baldacci, Sylvia Day, Jonathan Franzen ed Elin Hilderbrand, tra gli altri.

Gli autori sostengono che proteggere le loro creazioni letterarie dall’uso non autorizzato da parte di IA generative sia fondamentale per “preservare la cultura letteraria americana”.

Che OpenAI possa o voglia pagare per l’uso dei contenuti che usa, ad ogni modo, è tutto da vedere. Fino a poco tempo fa, le aziende tecnologiche si sono sempre dimostrate restie a pagare per l’uso dei dati.

Durante una sessione di ascolto sulla generative AI organizzata ad aprile dall’Ufficio del Copyright degli Stati Uniti, Sy Damle, un avvocato che rappresenta una grossa società di venture capital della Silicon Valley, aveva del resto riconosciuto che “l’unico modo pratico per far sì che questi strumenti esistano è che possano essere addestrati su enormi quantità di dati senza dover ottenere o pagare una licenza”.