È bastato un prompt testuale, nessun dialogo richiesto, eppure sullo schermo un’agente di polizia si gira verso la telecamera e dice con fermezza: “Dobbiamo liberare la strada.” Le labbra non si muovono, ma l’audio è lì, inserito senza che fosse esplicitamente richiesto. Benvenuti nell’era di Veo 3, il nuovo modello di intelligenza artificiale video-generativa di Google, così come raccontato da lungo e interessante articolo comparso su The Verge. La nuova versione del tool di Google è capace non solo di creare clip visive ma anche di inventare suoni, ambienti e persino frasi di dialogo. Un passo avanti enorme e inquietante nella produzione automatizzata di contenuti audiovisivi.

Un tool potente, che va oltre il prompt

Presentato durante la conferenza Google I/O, Veo 3 è stato definito “realistico in modo incredibile” da Josh Woodward, VP del progetto Gemini. E a quanto pare, non stava esagerando. Chi lo ha testato ha potuto creare video simulati di notiziari con annunci di disastri, falsi reportage, animazioni con gatti parlanti e persino scene surreali come una versione del Monte Rainier in eruzione. In alcuni casi, la piattaforma ha inserito elementi narrativi — come dialoghi o suoni ambientali — anche quando non richiesti, il che ha alimentato un crescente senso di ambiguità tra controllo dell’utente e creatività autonoma del modello.

Certo, ci sono dei limiti visibili: non è possibile generare video di figure politiche reali in contesti offensivi o compromettenti. Un prompt che chiede, ad esempio, la caduta del presidente Biden o la simulazione dell’assassinio di una figura pubblica non verrà accettato. Ma clip più ambigue — come incendi in luoghi iconici o scene ospedaliere emotivamente cariche — possono essere create senza particolari ostacoli.

Una nuova era per YouTube (e per la disinformazione?)

Le implicazioni sono notevoli, soprattutto per il tipo di contenuti che questa tecnologia può generare con estrema rapidità. Un test ha mostrato come, in pochi minuti, si possano realizzare video nello stile dei contenuti “vuoti ma virali” di YouTube Kids: camion che si tuffano in vasche di vernice, animali parlanti con musichette accattivanti e zero sostanza. Ma ciò che inquieta di più non è la banalità — è l’efficienza. Bastano pochi minuti per costruire clip convincenti, e con l’evoluzione dei modelli come Veo 3, passare da una breve scena a un contenuto da sette minuti (o più) è solo questione di tempo.

Al momento, le clip più lunghe vengono gestite da Veo 2, che non supporta ancora l’audio, ma tutto lascia presagire che presto si potrà editare un intero cortometraggio — e non solo — con input testuali. Google ha già mostrato collaborazioni artistiche con registi veri, come Eliza McNitt e Darren Aronofsky, ma nella pratica quotidiana questa tecnologia è più facilmente destinata a un mare di contenuti generici, algoritmici e potenzialmente virali.