Ad un umano può sembrare un compito banale riuscire ad isolare il suono di una specifica voce e associarla alla persona a cui appartiene, ma per una intelligenza artificiale è una vera sfida. Alcuni ricercatori di Google sono riusciti a creare una rete neurale capace di farlo.
In realtà il sistema fa di più, riesce ad isolare non uno ma molteplici timbri vocali, in modo da associare ognuno di essi alle persone che stanno parlando contemporaneamente.
Le persone sono molto brave a concentrare la loro attenzione su un’altra in particolare all’interno di un contesto rumoroso, di fatto ammutoliscono mentalmente tutte le altre voci e suoni. Conosciuta come “l’effetto cocktail party”, questa capacità è innata negli individui. Tuttavia il riconoscimento automatico e la separazione dei dialoghi, cioè attribuire a una specifica fonte la sua traccia audio, rimane una sfida significativa per i computer.
Anche in casi di conversazione accesa, dove le parole delle persone spesso si sovrappongono,
l’IA riesce a creare tracce audio delle singole persone semplicemente osservandone il volto.
Un aspetto unico della nostra tecnica – spiegano i ricercatori di Google Research – sta nella combinazione dei segnali audio e video per separare il parlato. Una modalità che non solo migliora la qualità della separazione del discorso quando questo è confuso e mescolato ma appunto associa anche la fonte
La rete neurale utilizzata per questo progetto è stata addestrata con duemila ore di video provenienti da oltre 100 mila filmati presenti su YouTube.
I risultati sono stati resi pubblici tramite alcuni video, e sono davvero degni di nota:
La ricerca sarà presentata questa estate a Siggraph 2018, e Google sta valutando di adottarla in futuro per i propri prodotti, che ultimamente hanno virato marcatamente verso il supporto vocale.
- Looking to Listen: Audio-Visual Speech Separation (ai.googleblog.com)
- Google, ora l’AI riesce a individuare le voci nella folla (wired.it)