Google cambia policy: "useremo le informazioni pubbliche per addestrare le nostre IA"

Google ha aggiornato la sua politica sulla privacy per affermare che può utilizzare dati pubblicamente disponibili per addestrare i suoi modelli di intelligenza artificiale, in particolare i LLM, i grandi modelli di linguaggio, cioè la tecnologia alla base dei chatbot moderni, come Google Bard.

In sostanza, con le nuove policy Google intende informare le persone che tutto ciò che viene pubblicato online potrebbe essere utilizzato per addestrare i suoi modelli di intelligenza artificiale generativa. Altre aziende come OpenAI sono state oggetto di critiche e cause legali per l’uso di dati personali senza consenso per addestrare i loro modelli GPT. Giusto ieri vi abbiamo parlato di una class action che ha accusato OpenAI di aver addestrato la tecnologia alla base di ChatGPT utilizzando illegalmente i dati di milioni di persone ignare.

Nel frattempo, Mountain View chiarisce la situazione. «Le nostre norme sulla privacy sono da tempo trasparenti sul fatto che Google utilizza informazioni pubblicamente disponibili dal web per addestrare modelli linguistici per servizi come Google Translate», spiega un portavoce di Google. «Questo ultimo aggiornamento chiarisce semplicemente che sono inclusi anche servizi più recenti come Bard. Incorporiamo i principi e le misure di salvaguardia della privacy nello sviluppo delle nostre tecnologie di intelligenza artificiale, in linea con i nostri Principi sull’IA».

In risposta al boom dell’intelligenza artificiale generativa, alcune piattaforme come Reddit hanno iniziato a richiedere pagamenti per l’accesso alle loro API, mentre Twitter ha imposto limitazioni sul numero di tweet visualizzabili al giorno per affrontare il problema dell’estrazione di dati e della manipolazione del sistema. Questo perché le aziende che addestrano intelligenze artificiali hanno bisogno di un’enorme quantità di dati, che spesso vengono estratti da social e piattaforme utilizzando software che automatizzano questo processo. In gergo si parla di data scraping. Questa pratica appesantisce le risorse informatiche delle piattaforme social, che in cambio, nella maggior parte dei casi, non ricevono nessuna compensazione.

05/07/2023: la notizia è stata aggiornata per integrare una dichiarazione di Google.