Le IA sono in grado di replicare quasi alla perfezione la voce di chiunque. Se ne sono accorti i truffatori, che da diversi mesi hanno bombardato i social di annunci pubblicitari fraudolenti sfruttando la voce di attori e celebrity. Su YouTube, invece, la possibilità di clonare le voci è stata usata per iniziative più peculiari: ad esempio c’è chi ha fatto parlare in inglese Adolf Hitler e Fidel Castro.

Per una persona poco informata, distinguere le voci generate artificialmente da quelle reali potrebbe essere molto complicato – anche se, molto spesso, gli indizi ci sono. Eppure a quanto pare si tratta di un compito che il nostro cervello svolge piuttosto bene. Un team di ricercatori dell’università di Zurigo ha scoperto che il nostro cervello risponde in modo diverso alle voci deepfake rispetto a quelle naturali. La scoperta potrebbe avere risvolti molto interessanti.

L’esperimento dell’Università di Zurigo

L’esperimento si inserisce all’interno delle ricerche sulla psicoacustiva, cioè lo studio della percezione soggettiva umana dei suoni. I ricercatori dell’Università di Zurigo hanno registrato le voci di quattro oratori maschili e poi utilizzato un algoritmo di conversione per generare voci deepfake. Dopodiché, le voci sono state analizzate e valutate da 25 volontari.

Il primo risultato interessante è che i volontari sono riusciti ad identificare correttamente come non genuine circa il 75% delle registrazioni prodotte usando l’intelligenza artificiale. Significa che, pur non imitando perfettamente l’identità di una persona, le voci deepfake hanno comunque il potenziale per ingannare le persone. Vale la pena di precisare che siamo solo all’inizio è che in futuro le IA potrebbero diventare molto più efficienti nel replicare perfettamente l’intonazione degli esseri umani.

IA o persona reale? Il cervello lo capisce

La scoperta più importante è stata raggiunta durante la seconda parte dell’esperimento, quando i ricercatori hanno monitorato l’attività cerebrale dei partecipanti. In questo modo, hanno scoperto che due aree del cervello rispondono in maniera molto differente a seconda che quella che si sta ascoltando sia una voce reale o meno.

Il nucleo accumbens, parte cruciale del sistema di ricompensa del cervello, era meno attivo quando i partecipanti dovevano abbinare l’identità tra voci deepfake e naturali, mentre mostrava molta più attività quando si trattava di confrontare due voci naturali.

Viceversa, la corteccia uditiva, che processa le informazioni sonore, era più attiva quando i partecipanti dovevano distinguere tra voci deepfake e naturali. Questo suggerisce che la regione risponde all’imitazione imperfetta delle voci deepfake, cercando di compensare le informazioni acustiche mancanti. Le voci deepfake sembrano essere meno piacevoli da ascoltare, e questo – almeno per ora – a prescindere dalle loro caratteristiche.