L’intelligenza artificiale ha cambiato le carte in tavola in molti settori, compreso quello della sintesi vocale. ElevenLabs, leader in questo settore, offre ai suoi utenti una tecnologia avanzata in grado di clonare qualsiasi voce, oltre che di crearne di nuove e uniche.
Che cos’è la clonazione vocale e a cosa serve?
La clonazione vocale consiste nell’utilizzo di tecniche di intelligenza artificiale per replicare e imitare fedelmente la voce di una persona reale.
Funziona così: si forniscono all’AI diversi campioni audio contenenti la voce target da clonare. L’algoritmo analizza le caratteristiche uniche di quella voce, come timbro, tono, accento, modo di parlare. Successivamente, l’AI è in grado di generare nuovo audio che imita in maniera estremamente precisa la voce originale. In questo modo, il generatore text-to-speech è in grado di pronunciare frasi che in realtà non sono mai state dette dalla persona la cui voce è stata clonata.
Questa tecnologia ha molteplici applicazioni:
- Siti web: un intero sito web può essere letto ad alta voce da un’intelligenza artificiale che riproduce la voce del suo autore, di una persona identificabile – l’amministratore delegato, i dirigenti di un’azienda, o quella di un attore o di un regista, ecc.
- Assistenza: le voci clonate possono essere utilizzate per personalizzare le risposte nelle applicazioni di assistenza vocale, offrendo un’esperienza più familiare e coinvolgente.
- Industria dell’intrattenimento: nel cinema, nella televisione e nei videogiochi, la clonazione vocale consente di utilizzare la voce di un attore o di un’attrice per diversi progetti, riducendo i costi di registrazione. Le voci clonate possono essere utilizzate anche per il doppiaggio, anche se nel caso di ElevenLabs è consigliabile che le voci clonate parlino nella stessa lingua delle registrazioni originali.
- Audiolibri e podcast: gli editori possono utilizzare la clonazione vocale per produrre audiolibri o podcast con la voce dell’autore o di altre voci famose (naturalmente con il loro consenso).
- Servizi di comunicazione per persone con disabilità: per le persone che non sono in grado di parlare, la clonazione vocale può consentire loro di comunicare utilizzando una voce che assomiglia alla loro voce naturale, com’era prima di perdere l’uso della parola.
- Pubblicità: le aziende possono utilizzare – ovviamente con il consenso delle persone interessate – le voci clonate di celebrità o personaggi noti per rendere più attraenti e personalizzati i loro messaggi pubblicitari.
Come funziona Elevenlabs?
ElevenLabs è una startup AI specializzata nella sintesi vocale, ed è attualmente leader nella clonazione della voce. Offre diversi servizi:
- Text-to-speech: permette di trasformare un testo scritto in voce parlata, utilizzando voci sintetiche generate dall’AI oppure voci clonate di persone reali (disponibilità di 29 lingue).
- Speech-to-speech: trasforma l voce in un’altra con il voice changer. Ad esempio, può trasformare una voce maschile in una femminile, la voce di un adulto nella voce di un bambino, oppure trasformare una voce naturale in una voce sintetica clonata tramite AI.
- Text-to-SFX: genera qualsiasi suono immaginabile a partire da una richiesta di testo.
- Voice cloning: crea una replica della propria voce.
- Voice isolator: elimina il rumore di fondo per la post-produzione di film, podcast e interviste.
Come clonare la voce con ElevenLabs
ElevenLabs offre due tipi di clonazione vocale:
Instant voice cloning
Consente di ottenere rapidamente la copia di una voce con pochissimi vincoli: è sufficiente fornire una registrazione audio di una singola voce, senza rumori di fondo e della durata di almeno un minuto. Le voci clonate possono essere modificate. È possibile regolare diversi parametri (stabilità, somiglianza e stile).
Pro voice cloning
La procedura per creare una voce clonata di qualità professionale con ElevenLabs è molto più impegnativa. Innanzitutto, è necessario fornire registrazioni molto più lunghe e di qualità superiore.
ElevenLabs consiglia di fornire un totale di almeno 30 minuti, e se possibile 3 ore o più, di registrazioni audio della stessa voce; registrare in uno studio; eliminare qualsiasi rumore di fondo o eco; utilizzare un microfono professionale. In breve, migliore è la qualità delle registrazioni, migliore sarà la voce clonata.
La clonazione vocale pro aggiunge anche un vincolo importante: è necessario autenticare la propria voce, leggendo un testo fornito dall’AI al termine della procedura. Questa protezione serve ovviamente a prevenire il “furto di voce”, un nuovo reato basato sul fatto che la legge considera la voce come un dato personale.
È importante capire che la clonazione vocale manterrà lo stile vocale originale, quindi non esiste un clone universale. Ad esempio, se lo scopo della voce clonata è quello di leggere sinteticamente un libro di poesie, è necessario registrare almeno 30 minuti di testo in quello stile per ottenere una voce clonata di “lettura poetica”. L’intelligenza artificiale non è in grado di capire automaticamente se si tratta di un testo poetico, pubblicitario, ecc., e di adattare la sua interpretazione come farebbe un essere umano.
Procedura di clonazione di una voce con ElevenLabs
Ecco come utilizzare lo strumento di sintesi vocale di ElevenLabs:
- Registrarsi sul sito web di ElevenLabs con il proprio account e-mail, Google o Facebook.
- Nella scheda Voice Lab, apparirà un pop-up e fare clic su Instant Voice Cloning.
- Selezionare quindi Add Generative or Cloned Voice.
- Aggiungere quindi i file di esempio della propria voce (si consiglia di non superare i 30 secondi per campione).
- Infine, quando tutti i file sono stati caricati, si assegna un nome alla voce e si fa clic su Add voice.
- Una volta aggiunta la voce, si torna automaticamente alla dashboard di Voice Lab e si può selezionare la voce aggiunta facendo clic su Use.
- Viene visualizzata una finestra in cui è possibile selezionare la voce e scrivere il testo da enunciare.
- Fare clic su Generate. Ora è possibile utilizzare la voce clonata per tutto ciò che si desidera!
Attenzione: la clonazione della voce non è disponibile nella versione gratuita. È necessario sottoscrivere (almeno) l’abbonamento Starter per poterla utilizzare.
Utilizzo del sintetizzatore vocale ElevenLabs
Per utilizzare lo strumento di sintesi vocale:
- Registrarsi sul sito web di ElevenLabs utilizzando il proprio account e-mail, Google o Facebook.
- Nella scheda Generate, selezionare Text to speech e fare clic su Setting.
- Per regolare le impostazioni, è necessario utilizzare i cursori Stability, Similarity et Style Exaggeration per personalizzare la voce.
- Selezionare Eleven Multilingual per le voci in diverse lingue, compreso l’italiano.
- Immettere il testo che si desidera convertire in audio.
- Fare clic su Generate e ascoltare il risultato. È anche possibile scaricare il campione generato.