Microsoft Research ha presentato WHAM (World and Human Action Model), un nuovo modello di intelligenza artificiale che fa progredire significativamente la capacità di creare simulazioni interattive di videogiochi basate sulla sola osservazione di filmati di gameplay. Il progetto, descritto in un paper pubblicato su Nature, mostra sia i notevoli progressi fatti in questo campo che la strada ancora da percorrere. Sempre più sviluppatori stanno cercando di creare AI in grado di facilitare lo sviluppo di nuovi videogiochi: tra gli altri, anche EA sta percorrendo questa strada.

Come funziona WHAM

Il modello è stato addestrato su Bleeding Edge, il brawler online 4v4 di Ninja Theory, utilizzando circa sette anni di gameplay combinato con gli input reali dei giocatori. Come spiega Katja Hoffman di Microsoft Research, nelle fasi iniziali il modello produceva risultati inconsistenti che degeneravano in “blocchi di colore”. Tuttavia, dopo un milione di aggiornamenti, WHAM ha iniziato a mostrare una comprensione basilare di interazioni complesse, come l’esplosione di una power cell dopo tre colpi o le abilità di volo dei personaggi.

Per valutare l’efficacia del modello, Microsoft ha condotto una serie di test fornendo a WHAM un secondo di filmato reale e chiedendogli di generare i frame successivi basandosi su nuovi input simulati. Il modello è riuscito a mantenere la coerenza fino a due minuti di gameplay generato – un miglioramento rispetto al precedente record di un minuto del modello Genie 2 di Google.

Particolarmente interessante è la capacità di WHAM di gestire la persistenza degli oggetti di gioco. Il team ha dimostrato come sia possibile inserire nuovi oggetti o personaggi in filmati esistenti attraverso la modifica di soli cinque frame, con il modello che riesce a mantenere questi elementi nei frame successivi con un tasso di successo tra l’85% e il 98%.

La strada è ancora lunga

Nonostante i progressi significativi, WHAM non raggiunge ancora completamente il livello di coerenza del gameplay umano. Il modello rappresenta comunque un importante passo avanti verso l’obiettivo di creare mondi di gioco interattivi completi partendo da semplici prompt e video di esempio, anche se questa meta rimane ancora distante.

L’innovazione principale di WHAM sta nella sua capacità di inferire le regole di comportamento degli oggetti e dei personaggi basandosi solo sull’osservazione, aprendo nuove possibilità per lo sviluppo di giochi e simulazioni interattive guidate dall’intelligenza artificiale.