Il programma Deep Voice di Baidu punta ad insegnare alle macchine a parlare imitando la voce di un’altra persona ed è riuscito nel suo scopo in meno di un minuto.

Lo scopo del progetto è quello di dare alle macchine una voce più umana per le interazioni con le persone.
Alla macchina è stato insegnato a trasformare un testo scritto in parole con il timbro vocale di una persona.

Alla macchina oggetto dei test è stato insegnato, grazie a un sistema basato su reti neurali, a trasformare un testo scritto in parole con il timbro vocale di una persona.

La macchina viene prima istruita con campioni della voce per insegnargli a riconoscerla e per impararne le caratteristiche, dopodiché gli si fa leggere il testo con la voce del soggetto clonato.

Il sistema funziona bene a tal punto da essere in grado di cambiare accento alla voce o modificarla per simulare la stessa voce del sesso opposto.

Inizialmente la clonazione di una voce specifica richiedeva un campionamento e relativo ascolto da parte dell’IA di almeno mezz’ora, ma ora i tempi sono stati drasticamente abbassati fino ad arrivare a meno di un minuto.

 

Deep Voice di Baidu

Deep Voice di Baidu

 

Gli scopi leciti di questo passo in avanti sono interessanti, come ridare una voce a chi l’ha persa per malattia o traumi. Ma quelli illeciti sono sempre in agguato, è facile infatti immaginarsi il proliferare di truffe e false registrazioni (deepfake + voce clonata = furto di identità perfetto).