Camb AI, società di intelligenza artificiale con base a Dubai, ha annunciato oggi il lancio di Mars5, un modello all’avanguardia per la clonazione vocale. Sebbene esistano numerosi modelli in grado di clonare la voce, Camb sostiene che Mars5 si distingua per il livello di realismo senza precedenti che offre.
Dai primi campioni condivisi dall’azienda, sembra che Mars5 non solo riesca a emulare la voce originale, ma catturi anche i complessi tratti prosodici ad essa associati, come ritmo, emozione e intonazione. Questa capacità di replicare fedelmente le sfumature del parlato umano rappresenta un notevole passo avanti nel campo della sintesi vocale.
Un’ampia gamma di lingue supportate, incluse quelle a bassa disponibilità di risorse
Uno degli aspetti più impressionanti di Mars5 è il suo supporto multilingua. Mentre la maggior parte dei concorrenti si limita a una ventina di lingue, Mars5 ne supporta oltre 140, comprendendo anche lingue a bassa disponibilità di risorse (parlate da poche persone nel mondo) come l’islandese e lo swahili.
Tuttavia, è importante notare che la versione open-source del modello, disponibile da oggi su GitHub, è specifica per l’inglese. Per accedere al supporto multilingua, gli utenti dovranno utilizzare la piattaforma a pagamento Camb Studio.
Clonazione vocale e sintesi del parlato in un’unica soluzione unificata
Normalmente, la clonazione della voce e la conversione text-to-speech sono offerte separate. La prima cattura i parametri di un determinato campione vocale per creare un clone della voce, mentre la seconda utilizza il clone per convertire un testo in parlato sintetico. Con Mars5, Camb AI ha unificato queste due funzionalità in un’unica piattaforma.
Il processo è semplice: l’utente carica un file audio di riferimento, che può essere lungo da pochi secondi a un minuto, e fornisce il contenuto testuale desiderato. Il modello utilizzerà quindi la voce dell’oratore nel file audio come base, catturandone i dettagli rilevanti come la voce originale, lo stile di conversazione, l’emozione, l’enunciazione e il significato. Infine, sintetizzerà il testo fornito come discorso, replicando fedelmente le caratteristiche della voce di partenza.
Prestazioni superiori rispetto ad altri modelli di clonazione vocale e text-to-speech
Camb AI sostiene che Mars5 sia in grado di catturare diversi toni emotivi e tonalità, coprendo una vasta gamma di scenari vocali complessi, come quando una persona è frustrata, arrabbiata, calma, ecc. Questa caratteristica, secondo l’azienda, lo rende particolarmente adatto a contenuti tradizionalmente difficili da convertire in parlato, come commenti sportivi, film e anime.
Nel confronto con ElevenLabs, uno dei principali concorrenti nel campo della clonazione vocale, Camb AI afferma che Mars5 è superiore nella capacità di apprendere e riprodurre le sfumature del parlato. Sebbene ElevenLabs abbia addestrato i suoi modelli su un set di dati molto più ampio (oltre 500.000 ore di registrazioni vocali, quasi 5 volte quello utilizzato da Camb AI per l’inglese), sembra che l’approccio di Camb AI sia più efficace nel cogliere le sottili sfumature prosodiche.
L’azienda prevede ulteriori miglioramenti man mano che i set di dati continueranno ad espandersi e beneficeranno del supporto della comunità open-source.
Prossime novità: il modello di traduzione Boli
Oltre a perfezionare le capacità di clonazione vocale e text-to-speech di Mars5, Camb AI sta lavorando al rilascio open-source di un altro modello chiamato Boli. Quest’ultimo è stato progettato per consentire la traduzione con comprensione del contesto, grammatica corretta e colloquialità adeguata.
Secondo Camb AI, Boli supera i motori di traduzione tradizionali come Google Translate e DeepL nel cogliere le sfumature e gli aspetti colloquiali delle lingue. A differenza dei sistemi basati su corpus paralleli su larga scala, Boli offre un’esperienza di traduzione più coerente e naturale, in particolare per le lingue con risorse medio-basse.
Attualmente, sia Mars5 che Boli sono disponibili per 140 lingue sulla piattaforma proprietaria Camb Studio, e l’azienda sta fornendo queste funzionalità come API a imprese, PMI e sviluppatori.