Speech2Face, l'IA che ricostruisce il volto di una persona partendo dalla sua voce

Su arXive è stato pubblicato un paper che spiega per la prima volta il funzionamento di Speech2Face: una intelligenza artificiale che ricostruisce l’immagine 3D del volto di una persona semplicemente partendo da una voce.

L’IA ovviamente non è in grado di riprodurre il volto di una persona specifica.

L’IA ovviamente non è in grado di riprodurre il volto di una persona specifica, non siamo ancora a questi livelli e forse non ci arriveremo mai. Tuttavia riuscirebbe ad azzeccare con una discreta precisione alcuni tratti essenziali della persona che sta ascoltando, come l’età, il sesso e il gruppo etnico d’appartenenza. Il risultato come intuibile è un volto molto generico, ma che comunque potrebbe dare una piccola mano alla scienza forense per individuare un sospettato.

I risultati di Speech2Face sono per molti versi stupefacenti, ma c’è ancora tanto da lavorare. Ad esempio l’IA avrebbe ancora diversi bias che le impedirebbero di associare correttamente il gruppo etnico di una persona che sta parlando in una lingua diversa dalla sua.

Un uomo asiatico viene riconosciuto come tale quando parla in cinese, ma quando la stessa persona usa l’americano, ecco che Speech2Face ricostruisce il volto di un uomo caucasico.

L’IA sembra avere anche problemi con le persone che hanno una voce con un timbro troppo basso, o troppo alto, rispetto al loro genere di appartenenza. Ad esempio in alcuni casi una donna con una voce molto “cavernosa” potrebbe venire scambiata per un uomo.

So this is weird. Apparently, I was used as an example in a paper in which an attempt was made to reconstruct images of speakers from audio alone. It didn't work out great. I'm including a current picture for reference. H/T @lotharrr for finding this. https://t.co/jsuXIlVfX0 pic.twitter.com/OIbB8dO3YI

— Nick Sullivan (@grittygrease) May 26, 2019

L’altra grossa questione introdotta da Slate è quella dei dataset che vengono usati per addestrare le intelligenze artificiali.

L’altra grossa questione introdotta da Slate è quella dei dataset che vengono usati per addestrare le intelligenze artificiali. Nella maggior parte non ci sono volontari, né un consenso esplicito da parte delle persone usate spesso a loro insaputa per creare i modelli su cui si basano gli algoritmi.

Alle IA viene dato in pasto tutto quello che si trova online, spesso facendo uso di portali come Flikr o, come nel caso di Speech2Face, Youtube. Così è successo che un ricercatore dell’azienda di sicurezza Cloudflare ha scoperto che il suo volto era stato usato come esempio di una certa corrispondenza voce-volto dall’intelligenza artificiale.

E questo semplicemente perché era comparso in un paio di video caricati online. Ma questo è un problema con cui dobbiamo imparare a convivere: non esiste altro modo per addestrare una intelligenza artificiale se non darle impasto vasti archivi di contenuti pubblici.

Edit: una prima versione di questa news definiva erroneamente ArXive come una rivista scientifica. L’articolo è stato corretto.

Should Researchers Be Allowed to Use YouTube Videos and Tweets? (slate.com)
AI Listened to People’s Voices. Then It Generated Their Faces (livescience.com)