Google ha presentato Veo 2, l’ultima evoluzione del suo modello per la generazione di video, insieme a un aggiornamento significativo di Imagen 3 e al nuovo esperimento Whisk, che sfrutta le capacità avanzate dei modelli IA, inclusa Gemini.

Veo 2: i video generati dall’AI sono sempre più realistici

Lanciato per la prima volta a Google I/O 2024, Veo 2 introduce un netto miglioramento nella comprensione della fisica del mondo reale e dei movimenti umani, aumentando il livello di realismo e dettaglio dei video generati. I prompt consentono ora di specificare con precisione stili cinematografici, angolazioni e effetti, come:

  • “Shallow depth of field” per sfocare lo sfondo e mettere a fuoco il soggetto.
  • Utilizzo di lenti specifiche come la “18mm” per angoli ampi o la “35mm” per riprese più ravvicinate

Esempi forniti da Google includono scene altamente dettagliate, come un apicoltore tra alveari illuminati al tramonto, o un flock di fenicotteri rosa in una laguna serena. Veo 2 promette inoltre di ridurre significativamente il fenomeno delle allucinazioni nelle generazioni video, incorporando il watermark SynthID per una maggiore tracciabilità.

Il nuovo modello è ora disponibile su VideoFX (Google Labs) con un’espansione graduale degli accessi. A partire dal 2025, Veo 2 verrà integrato anche in piattaforme come YouTube Shorts.

OpenAI lancia Sora, lo strumento per generare video con l’IA (ma non in Italia) OpenAI lancia Sora, lo strumento per generare video con l’IA (ma non in Italia)

Le novità su Imagen e Whisk

Google ha anche rilasciato un aggiornamento per Imagen 3, il suo generatore di immagini IA. Le immagini risultano ora più luminose, con una migliore composizione e dettagli più ricchi e realistici. Imagen 3 è in grado di riprodurre stili artistici con maggiore fedeltà e accuratezza. Il modello è già disponibile su ImageFX a livello globale.

Infine, Google Labs ha lanciato Whisk, un nuovo esperimento che permette agli utenti di creare contenuti unici combinando più immagini. Grazie all’integrazione delle capacità visive di Imagen 3 e del modello Gemini, Whisk consente di:

  • Caricare un’immagine del soggetto.
  • Aggiungere una scena.
  • Definire uno stile di riferimento.

Gli utenti possono quindi remixare queste componenti per generare creazioni personalizzate, come sticker, pin digitali o plushie virtuali.