Common Voice: più audio e più lingue per il dataset di Mozilla

Oggi Mozilla annuncia il rilascio della nuova versione di Common Voice, archivio dalla natura open source contenente registrazioni vocali e relative trascrizioni. È indirizzato a sviluppatori, startup, ricercatori e appassionati impegnati nella realizzazione di app, servizi e dispositivi basati su tecniche di riconoscimento o sintesi della voce.

Common Voice: sempre più audio, sempre più lingue

Al suo interno contiene un totale pari a 7.226 ore di audio (5.591 delle quali convalidate) in 54 lingue diverse. Un notevole passo in avanti rispetto alle 1.400 ore in 18 lingue della versione precedente pubblicata nei primi mesi dello scorso anno. Un progetto supportato dal lavoro di una community di volontari che si è prestata all’analisi dei 5,5 milioni di clip e all’aggiunta dei metadati poi impiegati per istruire gli algoritmi di riconoscimento o sintesi vocale specificando ad esempio l’età di chi le ha fornite, il sesso e l’accento.

Common Voice è pensato per integrarsi con DeepSpeech, una suite open source per i motori speech-to-tech e text-to-speech, così come con i modelli messi a punto dal Machine Learning Group di Mozilla.

Il progetto Common Voice di Mozilla

L’italiano è tra le cinque lingue presenti in Common Voice con oltre 5.000 voci diverse insieme a inglese, francese, tedesco e spagnolo. Sono invece sette quelle con più di 500 ore di registrazioni: inglese, tedesco, francese, catalano, spagnolo, cabilo e kinyarwanda.

Mozilla Common Voice

Nell’occasione la software house ha reso disponibile anche il primo dataset con clip pensate per un uso specifico: la pronuncia dei numeri “zero” a “nove”, le parole “sì” e “no”, i comandi “ehi” e “Firefox” con circa 120 ore di audio in 18 lingue diverse. Come già svelato in precedenza tornerà utile anche per il test della wakeword “Ehi Firefox”.

Fonte: Mozilla

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech