Nvidia ha recentemente lanciato la famiglia NVLM 1.0, una serie di modelli di intelligenza artificiale open-source multimodali che competono con le soluzioni proprietarie di colossi del settore come OpenAI e Google. Il modello di punta, NVLM-D-72B, con 72 miliardi di parametri, dimostra prestazioni eccezionali sia nelle attività legate alla visione che al linguaggio, e migliora anche le capacità di elaborazione del testo, un aspetto in cui i modelli multimodali spesso faticano.

La startup Synthesia supportata da Nvidia introduce avatar IA creati con webcam o telefono La startup Synthesia supportata da Nvidia introduce avatar IA creati con webcam o telefono

L’AI di NVIDIA segue un approccio diverso

Una delle principali innovazioni di Nvidia è la decisione di rendere pubblici i pesi del modello, rompendo con la tendenza prevalente di mantenere questi avanzati sistemi di intelligenza artificiale chiusi. Questo permetterà a ricercatori e sviluppatori di accedere a tecnologie all’avanguardia e di esplorarne appieno le potenzialità. Inoltre, Nvidia ha promesso di rilasciare anche il codice di addestramento, favorendo un livello di trasparenza e accessibilità raramente visto in ambito AI.

NVLM-D-72B: capacità impressionanti

In termini di prestazioni, il modello NVLM-D-72B si distingue per la sua versatilità, gestendo con abilità compiti complessi come l’interpretazione di meme, l’analisi di immagini e la risoluzione di problemi matematici. Ciò che risulta particolarmente degno di nota è l’incremento dell’accuratezza nelle attività testuali: grazie all’addestramento multimodale, il modello ha registrato un miglioramento del 4,3% nei principali benchmark di testo, superando così le aspettative rispetto ai modelli analoghi che, di solito, subiscono un calo delle prestazioni testuali.

NVLM-D-72B è un rivale diretto di modelli di IA come GPT-4 e LLaMA 3-V. La competizione nel campo delle AI avanzate si fa sempre più serrata.