Ieri OpenAI ha annunciato un nuovo modello di AI generativa: GPT-4o – la “o” sta per “omni“, in riferimento alla capacità del modello di gestire testo, parlato e video. GPT-4o verrà distribuito nei prodotti per sviluppatori e consumatori dell’azienda nelle prossime settimane. Mira Murati, CTO di OpenAI, ha dichiarato che GPT-4o fornisce un’intelligenza di “livello GPT-4“, ma migliora le capacità di GPT-4 su più modalità e media. “GPT-4o ragiona su voce, testo e visione“, ha detto Murati durante una presentazione trasmessa ieri in streaming presso gli uffici di OpenAI a San Francisco. “E questo è incredibilmente importante, perché stiamo guardando al futuro dell’interazione tra noi e le macchine“.

Interazioni vocali e visive potenziate: chatGPT diventa sempre più versatile con GPT-4o

GPT-4o migliora notevolmente l’esperienza del chatbot alimentato dall’intelligenza artificiale di OpenAI, ChatGPT. La piattaforma offre da tempo una modalità vocale che trascrive le risposte del chatbot utilizzando un modello text-to-speech, ma GPT-4o la potenzia, consentendo agli utenti di interagire con ChatGPT più come un assistente. Ad esempio, gli utenti possono porre una domanda al ChatGPT alimentato da GPT-4o e interrompere ChatGPT mentre risponde. Secondo OpenAI, il modello offre una reattività “in tempo reale” e può persino cogliere le sfumature della voce dell’utente, generando voci in “diversi stili emotivi” (compreso il canto). GPT-4o migliora anche le capacità di visione di ChatGPT.

Data una foto o una schermata del desktop, ChatGPT è ora in grado di rispondere rapidamente a domande correlate, da “Cosa succede in questo codice software?” a “Che marca di maglietta indossa questa persona? “. Queste funzioni si evolveranno ulteriormente in futuro, afferma Murati. Se oggi GPT-4o è in grado di guardare l’immagine di un menu in una lingua diversa e di tradurla, in futuro il modello potrebbe consentire a ChatGPT, ad esempio, di “guardare” una partita sportiva in diretta e di spiegarne le regole. GPT-4o è anche più poliglotta, sostiene OpenAI, con prestazioni migliorate in circa 50 lingue. Inoltre, nell’API di OpenAI e nell’Azure OpenAI Service di Microsoft, GPT-4o è due volte più veloce, costa la metà e ha limiti di velocità più elevati rispetto a GPT-4 Turbo, afferma l’azienda. Attualmente, le funzionalità vocali di GPT-4o non sono disponibili nell’API per tutti i clienti. OpenAI ha deciso di lanciare il supporto audio solo a un “piccolo gruppo di partner fidati” per prevenire potenziali abusi.

Disponibilità e Futuro di ChatGPT

GPT-4o è già disponibile per gli utenti del livello gratuito di ChatGPT e per gli abbonati ai piani premium ChatGPT Plus e Team. Questi ultimi godranno di limiti di messaggi “5 volte superiori”. La nuova esperienza vocale verrà resa disponibile in alpha per gli utenti Plus nel prossimo mese. OpenAI ha inoltre rilasciato una nuova interfaccia utente per ChatGPT sul web, con una schermata iniziale migliorata e un layout dei messaggi più colloquiale. È stata lanciata anche una versione desktop di ChatGPT per macOS, che permette agli utenti di interagire tramite una scorciatoia da tastiera. Gli utenti di ChatGPT Plus avranno accesso prioritario all’app, mentre la versione per Windows arriverà entro l’anno.

Nuove Funzionalità per Tutti: OpenAI Estende le Capacità di ChatGPT

Il GPT Store di OpenAI, una libreria per la creazione di chatbot di terze parti, è ora accessibile anche agli utenti del livello gratuito di ChatGPT. Funzionalità che erano riservate agli abbonati, come la capacità di archiviazione e la possibilità di caricare file e foto, sono ora disponibili per tutti. Inoltre, altre funzioni precedentemente a pagamento sono ora gratuite per tutti gli utenti di ChatGPT. Tra queste, la capacità di “ricordare” le preferenze per interazioni future, la possibilità di caricare file e foto, e la ricerca sul web per fornire risposte puntuali. Questi miglioramenti rendono ChatGPT ancora più potente e versatile, offrendo un’esperienza d’uso arricchita per tutti.