La comunicazione tra le lingue è una sfida che l’intelligenza artificiale può aiutare a superare. Questa è la visione di Meta AI, che ha annunciato di aver sviluppato una nuova suite di modelli di intelligenza artificiale, chiamata Seamless Communication, che ha l’obiettivo di rendere possibile una comunicazione più naturale e autentica tra le varie lingue, avvicinandosi al sogno di un traduttore vocale universale. I modelli sono stati resi pubblici questa settimana insieme a documenti di ricerca e dati di accompagnamento.
Il modello principale, chiamato Seamless, integra le funzionalità di altri tre modelli – SeamlessExpressive, SeamlessStreaming e SeamlessM4T v2 – in un unico sistema. Secondo il documento di ricerca, Seamless è “il primo sistema disponibile pubblicamente che sblocca la comunicazione espressiva interlinguistica in tempo reale”.
Come Seamless funziona come traduttore universale in tempo reale
Seamless è un traduttore che sfrutta l’intelligenza artificiale per la comunicazione tra le lingue. Combina tre modelli di rete neurale avanzati per consentire la traduzione in tempo reale tra oltre 100 lingue parlate e scritte, mantenendo lo stile vocale, l’emozione e la prosodia della voce di chi parla.
SeamlessExpressive si pone l’obiettivo di preservare lo stile vocale e le sfumature emotive della voce dell’oratore durante la traduzione tra le lingue. Come spiegato nel documento, “le traduzioni dovrebbero catturare le sfumature dell’espressione umana. Sebbene gli strumenti di traduzione esistenti siano in grado di catturare il contenuto di una conversazione, in genere si affidano a sistemi di sintesi vocale robotici e monotoni”.
SeamlessStreaming permette di tradurre quasi in tempo reale con una latenza di soli due secondi. I ricercatori affermano che si tratta del “primo modello multilingue di massa” a fornire una velocità di traduzione così elevata in quasi 100 lingue parlate e scritte.
Il terzo modello, SeamlessM4T v2, funge da base per gli altri due modelli. Si tratta di una versione aggiornata del modello SeamlessM4T originale, rilasciato l’anno scorso. Secondo il documento, la nuova architettura offre “una migliore coerenza tra testo e parlato”.
Un’opportunità per connettere le persone
I modelli di Seamless Communication possono essere utilizzati per diverse applicazioni, come la conversazione multilingue con gli occhiali intelligenti, il doppiaggio automatico di video e podcast, o l’assistenza linguistica per gli immigrati e altri soggetti che hanno difficoltà di comunicazione. “Pubblicando il nostro lavoro, ci auguriamo che i ricercatori e gli sviluppatori possano ampliare l’impatto dei nostri contributi costruendo tecnologie volte a colmare le connessioni multilingue in un mondo sempre più interconnesso e interdipendente”, si legge nel documento.
Una tecnologia sicura e responsabile
Meta è consapevole dei rischi che la tecnologia potrebbe comportare, come l’uso improprio per truffe di phishing vocale, falsificazioni profonde e altre applicazioni dannose. Per questo, ha implementato diverse misure per promuovere la sicurezza e l’uso responsabile dei modelli, come il watermarking dell’audio e nuove tecniche per ridurre gli output tossici allucinati.
Una risorsa per la comunità dei ricercatori
Meta ha deciso di rendere pubblici i modelli di Seamless Communication su Hugging Face e Github, in linea con il suo impegno per la ricerca aperta e la collaborazione. La raccolta comprende i modelli Seamless, SeamlessExpressive, SeamlessStreaming e SeamlessM4T v2 con i relativi metadati. Meta spera di consentire ai ricercatori e agli sviluppatori di basarsi su questo lavoro e di estenderlo per aiutare a connettere le persone attraverso le lingue e le culture.