Common Voice: più audio e più lingue per il dataset di Mozilla

Mozilla pubblica un maxi-update di Common Voice

Grandi numeri per il progetto Common Voice di Mozilla come testimonia il rilascio della nuova versione del dataset proposto dalla software house.
Mozilla pubblica un maxi-update di Common Voice
Grandi numeri per il progetto Common Voice di Mozilla come testimonia il rilascio della nuova versione del dataset proposto dalla software house.

Oggi Mozilla annuncia il rilascio della nuova versione di Common Voice, archivio dalla natura open source contenente registrazioni vocali e relative trascrizioni. È indirizzato a sviluppatori, startup, ricercatori e appassionati impegnati nella realizzazione di app, servizi e dispositivi basati su tecniche di riconoscimento o sintesi della voce.

Common Voice: sempre più audio, sempre più lingue

Al suo interno contiene un totale pari a 7.226 ore di audio (5.591 delle quali convalidate) in 54 lingue diverse. Un notevole passo in avanti rispetto alle 1.400 ore in 18 lingue della versione precedente pubblicata nei primi mesi dello scorso anno. Un progetto supportato dal lavoro di una community di volontari che si è prestata all’analisi dei 5,5 milioni di clip e all’aggiunta dei metadati poi impiegati per istruire gli algoritmi di riconoscimento o sintesi vocale specificando ad esempio l’età di chi le ha fornite, il sesso e l’accento.

Common Voice è pensato per integrarsi con DeepSpeech, una suite open source per i motori speech-to-tech e text-to-speech, così come con i modelli messi a punto dal Machine Learning Group di Mozilla.

Il progetto Common Voice di Mozilla

L’italiano è tra le cinque lingue presenti in Common Voice con oltre 5.000 voci diverse insieme a inglese, francese, tedesco e spagnolo. Sono invece sette quelle con più di 500 ore di registrazioni: inglese, tedesco, francese, catalano, spagnolo, cabilo e kinyarwanda.

Mozilla Common Voice

Nell’occasione la software house ha reso disponibile anche il primo dataset con clip pensate per un uso specifico: la pronuncia dei numeri “zero” a “nove”, le parole “sì” e “no”, i comandi “ehi” e “Firefox” con circa 120 ore di audio in 18 lingue diverse. Come già svelato in precedenza tornerà utile anche per il test della wakeword “Ehi Firefox”.

Fonte: Mozilla
Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
3 lug 2020
Link copiato negli appunti