Leganerd.com
Menu

Reddit fa causa a Perplexity e altre aziende: “Rubano i nostri dati senza pagare le licenze”

La piattaforma accusa quattro società di scraping illegale dei contenuti. Un test ha dimostrato l'uso non autorizzato di post Reddit per addestrare l'AI.

Reddit fa causa a Perplexity e altre aziende: “Rubano i nostri dati senza pagare le licenze”

Reddit ha intentato causa contro le società SerApi, OxyLabs, AWMProxy e Perplexity per aver presumibilmente sottratto i suoi dati dai risultati di ricerca e utilizzati senza licenza, come riporta il New York Times. La nuova azione legale segue quella già avviata contro la startup di intelligenza artificiale Anthropic, accusata di aver utilizzato contenuti Reddit per addestrare il suo chatbot Claude. Una mossa che conferma la determinazione della piattaforma nel proteggere il valore commerciale delle conversazioni e dei post generati dai suoi utenti, sempre più ambiti dalle aziende di AI.

Dal 2023, Reddit fa pagare le aziende che vogliono accedere ai post e ad altri contenuti, nella speranza di monetizzare dati che potrebbero essere utilizzati per l’addestramento dell’intelligenza artificiale. La società ha firmato accordi di licenza con colossi come Google e OpenAI, e ha persino costruito un proprio sistema di risposta basato sull’AI per sfruttare le conoscenze contenute nei post degli utenti. Estrarre contenuti Reddit direttamente dai risultati di ricerca aggira questi pagamenti, motivo per cui l’azienda chiede risarcimenti finanziari e un’ingiunzione permanente.

Reddit Answers sotto accusa: l’IA suggerisce il consumo di eroina Reddit Answers sotto accusa: l’IA suggerisce il consumo di eroina

Chi sono gli imputati

Alcune delle aziende nel mirino di Reddit, come SerApi, OxyLabs e AWMProxy, non sono esattamente nomi conosciuti al grande pubblico, ma tutte hanno fatto della raccolta di dati dai risultati di ricerca e della loro rivendita un elemento chiave del proprio modello di business. L’inclusione di Perplexity nella causa potrebbe invece apparire più ovvia agli osservatori del settore. L’azienda di AI necessita di grandi quantità di dati per addestrare i suoi modelli e in passato è già stata sorpresa a copiare e rigurgitare materiale che non aveva pagato per licenziare. Questo include anche il presunto mancato rispetto del protocollo robots.txt, un meccanismo che permette ai siti web di comunicare che non vogliono che i loro contenuti vengano estratti automaticamente.

Perplexity

Secondo una copia della causa fornita a Engadget, Reddit aveva già inviato a Perplexity una diffida chiedendo di interrompere lo scraping di post senza licenza. L’azienda aveva risposto sostenendo di non utilizzare dati Reddit, ma aveva continuato a citare la piattaforma nelle risposte fornite dal suo chatbot. Reddit afferma di essere riuscita a dimostrare che Perplexity stava usando contenuti sottratti attraverso un “post di test” che “poteva essere indicizzato solo dal motore di ricerca di Google e non era altrimenti accessibile da nessun’altra parte su internet”.

La trappola del post fantasma

“L’unico modo in cui Perplexity avrebbe potuto ottenere quel contenuto Reddit e poi utilizzarlo nel suo ‘motore di risposta’ è se l’azienda e/o i suoi co-imputati avessero estratto i risultati di ricerca Google per quel contenuto Reddit e Perplexity avesse poi rapidamente incorporato quei dati nel suo motore di risposta”, sostiene la causa con un’argomentazione difficile da contestare.

Quando le è stato chiesto un commento, Perplexity ha fornito una dichiarazione che evita di entrare nel merito delle accuse specifiche: “Perplexity non ha ancora ricevuto la causa, ma combatteremo sempre vigorosamente per i diritti degli utenti ad accedere liberamente ed equamente alla conoscenza pubblica. Il nostro approccio rimane basato su principi e responsabile mentre forniamo risposte fattuali con AI accurata, e non tollereremo minacce contro l’apertura e l’interesse pubblico”.

Fonte:
Ti potrebbero interessare