Mentre le autorità di regolamentazione e i provider sono alle prese con la duplice sfida di proteggere gli utenti più giovani dei social media da molestie e bullismo e di adottare misure per salvaguardare la loro privacy, un team di ricercatori di quattro importanti università ha proposto un modo per utilizzare la tecnologia di apprendimento automatico per segnalare le conversazioni a rischio su Instagram senza doverle origliare. La scoperta potrebbe offrire alle piattaforme e ai genitori l’opportunità di proteggere gli utenti più giovani e vulnerabili, preservando al contempo la loro privacy. Il team, guidato da ricercatori della Drexel University, della Boston University, del Georgia Institute of Technology e della Vanderbilt University, ha recentemente pubblicato il suo lavoro – un’indagine per capire quale tipo di dati in ingresso, come metadati, testo e caratteristiche dell’immagine, potrebbe essere più utile per i modelli di apprendimento automatico per identificare le conversazioni a rischio – nei Proceedings of the Association for Computing Machinery’s Conference on Human-Computer Interaction. I risultati suggeriscono che le conversazioni a rischio possono essere rilevate dalle caratteristiche dei metadati, come la durata della conversazione e il grado di coinvolgimento dei partecipanti. I loro sforzi affrontano un problema crescente sulla piattaforma di social media più popolare tra i giovani americani di età compresa tra i 13 e i 21 anni. Studi recenti hanno dimostrato che le molestie su Instagram stanno portando a un drammatico aumento della depressione tra gli utenti più giovani, in particolare a un aumento dei disturbi mentali e alimentari tra le ragazze adolescenti.
La crittografia end-to-end complica un po’ le cose
“La popolarità di una piattaforma come Instagram tra i giovani, proprio per il modo in cui fa sentire i suoi utenti abbastanza sicuri da connettersi con gli altri in modo molto aperto, è molto preoccupante alla luce di ciò che ora sappiamo sulla prevalenza di molestie, abusi e bullismo da parte di utenti malintenzionati”, ha dichiarato Afsaneh Razi, professore assistente presso il College of Computing & Informatics di Drexel, coautore della ricerca. Allo stesso tempo, le piattaforme sono sottoposte a crescenti pressioni per proteggere la privacy dei propri utenti, a seguito dello scandalo Cambridge Analytica e delle precedenti leggi dell’Unione Europea sulla protezione della privacy. Di conseguenza, Meta, la società dietro Facebook e Instagram, sta introducendo la crittografia end-to-end di tutti i messaggi sulle sue piattaforme. Ciò significa che il contenuto dei messaggi è tecnologicamente protetto e può essere consultato solo dalle persone coinvolte nella conversazione. Questo livello di sicurezza aggiuntivo rende però più difficile per le piattaforme l’impiego di tecnologie automatizzate per individuare e prevenire i rischi online, motivo per cui il sistema del gruppo potrebbe svolgere un ruolo importante nella protezione degli utenti.
“Un modo per affrontare questa ondata di malintenzionati, su una scala tale da proteggere gli utenti vulnerabili, è rappresentato dai programmi di rilevamento automatico dei rischi”, ha affermato Razi. “Ma la sfida è progettarli in modo etico, in modo che siano accurati ma anche non invasivi della privacy. È importante dare priorità alla sicurezza e alla privacy delle giovani generazioni quando si implementano funzioni di sicurezza come la crittografia end-to-end nelle piattaforme di comunicazione”.
Il sistema sviluppato da Razi e dai suoi colleghi utilizza algoritmi di apprendimento automatico in un approccio stratificato che crea un profilo di metadati di una conversazione a rischio – è probabile che sia breve e unilaterale, ad esempio – combinato con indizi di contesto, come l’invio di immagini o link. Nei test effettuati, il programma ha ottenuto un’accuratezza dell’87% nell’identificare le conversazioni a rischio utilizzando solo questi dettagli scarsi e anonimi.
L’addestramento del modello
Per addestrare e testare il sistema, i ricercatori hanno raccolto e analizzato più di 17.000 chat private di 172 utenti di Instagram di età compresa tra i 13 e i 21 anni che hanno offerto volontariamente le loro conversazioni – più di 4 milioni di messaggi in tutto – per contribuire alla ricerca. Ai partecipanti è stato chiesto di esaminare le loro conversazioni e di etichettare ciascuna di esse come “sicura” o “non sicura”. Circa 3.300 conversazioni sono state contrassegnate come “non sicure” e classificate in una delle cinque categorie di rischio: molestie, messaggi sessuali/sollecitazioni, nudità/porno, incitamento all’odio e vendita o promozione di attività illegali. Utilizzando un campione casuale di conversazioni per ogni categoria, il team ha usato diversi modelli di apprendimento automatico per estrarre una serie di metadati – come la durata media della conversazione, il numero di utenti coinvolti, il numero di messaggi inviati, il tempo di risposta, il numero di immagini inviate e il fatto che i partecipanti fossero o meno collegati o reciprocamente connessi ad altri su Instagram – più strettamente associati alle conversazioni a rischio. Questi dati hanno permesso al team di creare un programma in grado di operare utilizzando solo i metadati, alcuni dei quali sarebbero disponibili se le conversazioni su Instagram fossero crittografate end-to-end.
“Nel complesso, i nostri risultati aprono interessanti opportunità per la ricerca futura e implicazioni per l’intero settore”, ha riferito il team. “In primo luogo, l’esecuzione del rilevamento dei rischi sulla base delle sole caratteristiche dei metadati consente di utilizzare metodi di rilevamento leggeri che non richiedono i costosi calcoli necessari per l’analisi di testo e immagini. In secondo luogo, lo sviluppo di sistemi che non analizzano i contenuti facilita alcuni dei problemi etici e di privacy che sorgono in questo settore, garantendo la protezione degli utenti”. Per migliorarlo – realizzando un programma che potrebbe essere ancora più efficace e in grado di identificare il tipo di rischio specifico, se gli utenti o i genitori decidono di condividere ulteriori dettagli delle conversazioni per motivi di sicurezza – il team ha eseguito un’analisi simile di apprendimento automatico di spunti linguistici e caratteristiche delle immagini utilizzando lo stesso set di dati. In questo caso, programmi avanzati di apprendimento automatico hanno passato al setaccio il testo delle conversazioni e, sapendo quali contatti gli utenti avevano identificato come “non sicuri”, hanno individuato le parole e le combinazioni di parole che sono abbastanza diffuse nelle conversazioni a rischio da poter essere utilizzate per attivare un flag. Per l’analisi delle immagini e dei video – che sono il fulcro della comunicazione su Instagram – il team ha utilizzato una serie di programmi, uno in grado di identificare ed estrarre il testo in cima alle immagini e ai video, e un altro in grado di esaminare e generare una didascalia per ogni immagine. Quindi, utilizzando un’analisi testuale simile, i programmi di apprendimento automatico hanno creato un profilo di parole indicative di immagini e video condivisi in una conversazione a rischio. Addestrato con queste caratteristiche delle conversazioni a rischio, il sistema di apprendimento automatico è stato messo alla prova analizzando un campione casuale di conversazioni dal set di dati più ampio che non era stato utilizzato nel processo di generazione del profilo o di addestramento. Grazie a una combinazione di analisi dei tratti dei metadati, delle indicazioni linguistiche e delle caratteristiche delle immagini, il programma è stato in grado di identificare le conversazioni a rischio con un’accuratezza dell’85%.
I limiti dello studio
I ricercatori riconoscono che la loro ricerca ha dei limiti, perché ha preso in esame solo i messaggi su Instagram, anche se il sistema potrebbe essere adattato per analizzare i messaggi su altre piattaforme soggette a crittografia end-to-end. Inoltre, osservano che il programma potrebbe diventare ancora più accurato se il suo addestramento continuasse con un campione più ampio di messaggi. Tuttavia, essi osservano che questo lavoro dimostra che un efficace rilevamento automatico dei rischi è possibile e che, sebbene la protezione della privacy sia una preoccupazione valida, esistono modi per fare progressi e questi passi dovrebbero essere perseguiti al fine di proteggere gli utenti più vulnerabili di queste piattaforme popolari. “La nostra analisi fornisce un primo passo importante per consentire il rilevamento automatico – basato sull’apprendimento automatico – dei comportamenti a rischio online in futuro”, scrivono i ricercatori. “Il nostro sistema si basa su caratteristiche reattive della conversazione, ma la nostra ricerca apre anche la strada ad approcci più proattivi al rilevamento dei rischi, che probabilmente saranno più traducibili nel mondo reale data la loro ricca validità ecologica”.