La funzione vocale di ChatGPT è ora disponibile gratuitamente per tutti gli utenti. In un post su X (ex Twitter), OpenAI ha annunciato che gli utenti possono toccare l’icona delle cuffie per usare la propria voce per parlare con ChatGPT nell’app mobile, oltre ad ottenere una risposta sonora. OpenAI ha lanciato per la prima volta la possibilità della funzione vocale di ChatGPT a settembre, ma aveva reso disponibile la funzione solo agli utenti paganti. Il rilascio arriva mentre lo staff di OpenAI è alle prese con l’improvvisa estromissione dell’amministratore delegato e con le difficili trattative per il suo ritorno. A questo proposito, la demo inclusa nel post di OpenAI su X scherza persino sul “dramma” in corso, che si è svolto a notte fonda negli ultimi giorni.

Nell’esempio, qualcuno chiede a ChatGPT: “È stata una lunga notte per il team e abbiamo fame. Quante pizze da 16 pollici devo ordinare per 778 persone?“. OpenAI ha all’incirca lo stesso numero di dipendenti, la maggior parte dei quali ha recentemente minacciato di licenziarsi se non si dimette l’intero consiglio di amministrazione.

Come OpenAI trasforma la voce in richiesta di dati

Tralasciando le beghe interne di OpenAI, torniamo alla nuova funzione vocale di ChatGPT. La maggior parte delle modifiche apportate da OpenAI a ChatGPT riguardano ciò che il bot, dotato di intelligenza artificiale, è in grado di fare: domande a cui può rispondere, informazioni a cui può accedere e modelli sottostanti migliorati. Questa volta, però, si tratta di modificare il modo in cui si utilizza ChatGPT stesso. L’azienda ha introdotto questa nuova versione del servizio che consente di sollecitare il bot AI non solo digitando frasi in una casella di testo, ma anche parlando ad alta voce. Si tocca un pulsante e si pronuncia la domanda, ChatGPT la converte in testo e la invia al modello linguistico di grandi dimensioni, riceve una risposta, la converte nuovamente in parlato e pronuncia la risposta ad alta voce. Dovrebbe essere proprio come parlare con Alexa o Google Assistant, solo che – spera OpenAI – le risposte saranno migliori grazie al miglioramento della tecnologia sottostante. Sembra che la maggior parte degli assistenti virtuali sia in fase di ricostruzione per affidarsi agli LLM: OpenAI è già all’ avanguardia, quindi.

Il modello Whisper di OpenAI e la collaborazione con Spotify

Dietro questa nuova funzione c’è l’eccellente modello Whisper di OpenAI che svolge gran parte del lavoro di sintesi vocale, e l’azienda sta per lanciare un nuovo modello di sintesi vocale e, a suo dire, sarà possibile scegliere la voce di ChatGPT tra cinque opzioni. OpenAI sta collaborando anche con Spotify per tradurre i podcast in altre lingue, ad esempio, mantenendo il suono della voce del podcaster. Ci sono molti usi interessanti per le voci sintetiche e OpenAI potrebbe essere una parte importante di questo settore.