Il programma Deep Voice di Baidu punta ad insegnare alle macchine a parlare imitando la voce di un’altra persona ed è riuscito nel suo scopo in meno di un minuto.
Lo scopo del progetto è quello di dare alle macchine una voce più umana per le interazioni con le persone.
Alla macchina oggetto dei test è stato insegnato, grazie a un sistema basato su reti neurali, a trasformare un testo scritto in parole con il timbro vocale di una persona.
La macchina viene prima istruita con campioni della voce per insegnargli a riconoscerla e per impararne le caratteristiche, dopodiché gli si fa leggere il testo con la voce del soggetto clonato.
Il sistema funziona bene a tal punto da essere in grado di cambiare accento alla voce o modificarla per simulare la stessa voce del sesso opposto.
Inizialmente la clonazione di una voce specifica richiedeva un campionamento e relativo ascolto da parte dell’IA di almeno mezz’ora, ma ora i tempi sono stati drasticamente abbassati fino ad arrivare a meno di un minuto.
Gli scopi leciti di questo passo in avanti sono interessanti, come ridare una voce a chi l’ha persa per malattia o traumi. Ma quelli illeciti sono sempre in agguato, è facile infatti immaginarsi il proliferare di truffe e false registrazioni (deepfake + voce clonata = furto di identità perfetto).
- Via Repubblica (repubblica.it)
- Deep Voice sul sito di Baidu Research con alcuni audio di esempio (research.baidu.com)
- Repository Github relativo a Deep Voice (github.com)