DeepMind ha presentato un nuovo strumento di intelligenza artificiale progettato per generare colonne sonore per video. L’IA è in grado di analizzare e comprendere in autonomia il contenuto del video, creando musiche drammatiche, effetti sonori realistici e perfino dialoghi adatti al tono del filmato.

DeepMind è una società di intelligenza artificiale di proprietà di Google, nota per sviluppare algoritmi avanzati e tecnologie AI, tra cui il sistema di gioco AlphaGo – celebre per aver battuto i campioni mondiali di numerosi giochi, come Starcraft 2.

L’IA che genera colonne sonore: come funziona

Come anticipato, l’IA può creare un numero illimitato di colonne sonore semplicemente analizzando il contenuto del video. Anche se non è obbligatorio, Google consiglia di utilizzare anche un promt testuale, in modo da ottenere un risultato ancora migliore. Ad esempio, in uno dei video dimostrativi l’azienda ha utilizzato il promt “auto che sgommano, motore che accelera, musica elettronica angelica”. Il risultato è piuttosto impressionante: i suoni delle sgommate e del rombo del motore sono perfettamente in sincrono con i movimenti dell’automobile.

Per un altro esempio, Google ha usato le istruzioni: “una medusa che pulsa sotto l’acqua, vita marina, oceano”. L’azienda ha spiegato che, a prescindere dalle eventuali istruzioni testuali, la qualità del risultato è strettamente associata a quella del video: un filmato sgranato o confuso quasi sicuramente produrrà una colonna sonora insoddisfacente.

Per arrivare a questo strumento, l’azienda ha dato in pasto al suo modello di apprendimento un enorme quantità di video, audio e annotazioni meticolose del contenuto di ciascuno di essi.

Google DeepMind presenta la prima IA che impara imitando ciò che vede in video Google DeepMind presenta la prima IA che impara imitando ciò che vede in video

Ma è ancora un work in progress

Il nuovo strumento basato su intelligenza artificiale di Google non è ancora perfetto e, anche per questo, per il momento non è accessibile pubblicamente. DeepMind ha spiegato che, prima di metterlo a disposizione del pubblico, sarà anche necessario sottoporlo ad attente valutazioni di sicurezza, in modo da evitare che possa venire usato impropriamente.

Nel complesso, l’IA se la cava già molto bene con la musica e gli effetti sonori, mentre sembra che faccia ancora un po’ di difficoltà con i dialoghi, che spesso non risulterebbero in sincrono. In futuro, quando lo strumento sarà disponibile per tutti, gli audio includeranno un watermark per segnalare che sono stati generati dall’IA. Una precauzione che Google impiega per tutte le sue IA generative.