Meta ha recentemente lanciato una suite di modelli di traduzione linguistica AI chiamata Seamless Communication, costituita da 4 modelli AI. Questa funzione mira a consentire una comunicazione più naturale e autentica. La suite include tre modelli principali: SeamlessExpressive, SeamlessStreaming e SeamlessM4T v2. Questi modelli sono progettati per preservare l’espressione e la complessità del parlato tra le lingue. Forniscono anche traduzioni vocali e testuali con circa due secondi di latenza. Meta afferma che la suite AI è in grado di “riprodurre accuratamente le emozioni dell’oratore”. Secondo alcuni rapporti, Seamless Communication è un risultato di ricerca di Meta per celebrare il 10° anniversario della creazione della propria organizzazione di ricerca sull’IA “Fundamental AI Research”. Tutti i modelli sono basati su SeamlessM4T v2, l’ultima versione del modello di base che Meta ha  rilasciato in agosto.

Cosa è in grado di fare SeamlessM4T v2

SeamlessM4T, il primo modello di traduzione AI multimodale e multilingue all-in-one che consente alle persone di comunicare senza sforzo attraverso il parlato e il testo in diverse lingue. SeamlessM4T supporta:

  • Riconoscimento vocale per quasi 100 lingue;
  • Traduzione da parlato a testo per quasi 100 lingue di ingresso e di uscita;
  • Traduzione vocale, con supporto di quasi 100 lingue di input e 36 lingue di output (incluso l’inglese);
  • Traduzione da testo a testo per quasi 100 lingue;
  • Traduzione da testo a voce, con supporto di quasi 100 lingue di ingresso e 35 (compreso l’inglese) lingue di uscita

In particolare, i modelli principali inclusi nel kit Seamless Communication sono SeamlessExpressive, SeamlessStreaming e SeamlessM4T v2. Meta ha affermato che la suite include quanto segue

    1. “Modello SeamlessM4T di seconda generazione” per una traduzione accelerata
    2. Modello interpretativo – “Seamless Expressive”,
  1. Modello di traduzione simultanea – “Seamless Streaming”

SeamlessExpressive

SeamlessExpressive è un modello che mira a preservare l’espressione, l’emozione e l’intonazione della voce dell’oratore durante la traduzione vocale. Questo modello si concentra sull’acquisizione delle sfumature dell’espressione umana, che sono spesso trascurate dagli strumenti di traduzione esistenti. Preservando lo stile vocale e le sfumature emotive della voce dell’oratore, SeamlessExpressive consente una comunicazione interlinguistica più naturale e autentica.Attualmente il modello conserva questi elementi nella traduzione vocale tra inglese, spagnolo, tedesco, francese, italiano e cinese.

SeamlessStreaming

SeamlessStreaming è un altro modello chiave del kit Seamless Communication. Consente traduzioni vocali e testuali quasi in tempo reale con solo circa due secondi di latenza. A differenza dei sistemi di traduzione convenzionali che aspettano che l’oratore finisca la frase prima di tradurre, SeamlessStreaming traduce mentre l’oratore sta ancora parlando. Questa funzione consente conversazioni più fluide e naturali tra persone di lingue diverse. Supporta la traduzione orale (speech-to-speech translation), la traduzione di dettatura (speech-to-text translation, S2TT) e il riconoscimento vocale automatico (Automatic speech recognition). Il modello completo Seamless integra i tre modelli linguistici per facilitare scenari universali.

SeamlessM4T v2

SeamlessM4T v2 funge da modello multilingue e multitasking di base che alimenta gli altri due modelli del kit Seamless Communication. Si tratta di una versione aggiornata del modello originale SeamlessM4T, che offre una maggiore coerenza tra l’output di testo e quello vocale.

Comunicazione universale

Secondo l’azienda, il lancio del kit di traduzione Seamless Communication AI è un progresso significativo nel campo della traduzione linguistica basata sull’intelligenza artificiale. Consentendo una comunicazione interlinguistica più naturale e autentica, la suite Seamless Communication ha il potenziale per abbattere le barriere linguistiche e facilitare la comunicazione universale. In termini di sicurezza di questo prodotto, Meta ha aggiunto un metodo di filigrana più affidabile ed efficiente nel distinguere le voci sintetiche da quelle umane. La filigrana incorpora attivamente un segnale che non viene notato dall’orecchio umano ma rilevabile utilizzando un modello di rilevatore nell’audio. L’origine dell’audio può essere correttamente rintracciata con questa filigrana. Stabilire una provenienza audio verificabile promuove l’uso corretto degli strumenti di conservazione della voce e aiuta a prevenire potenziali abusi.

Quando sarà disponibile?

L’azienda ha scritto sul suo blog che: “Per consentire ai nostri colleghi ricercatori di basarsi su questo lavoro, stiamo rilasciando pubblicamente la suite completa di modelli di comunicazione senza soluzione di continuità, insieme a metadati, dati e strumenti”. Per ora, quindi, Meta ha rilasciato pubblicamente tutti e quattro i modelli per consentire ai ricercatori di basarsi su loro lavoro. Per chi voglia scaricare delle demo prova può farlo qui.