Oggi Mozilla annuncia il rilascio della nuova versione di Common Voice, archivio dalla natura open source contenente registrazioni vocali e relative trascrizioni. È indirizzato a sviluppatori, startup, ricercatori e appassionati impegnati nella realizzazione di app, servizi e dispositivi basati su tecniche di riconoscimento o sintesi della voce.
Common Voice: sempre più audio, sempre più lingue
Al suo interno contiene un totale pari a 7.226 ore di audio (5.591 delle quali convalidate) in 54 lingue diverse. Un notevole passo in avanti rispetto alle 1.400 ore in 18 lingue della versione precedente pubblicata nei primi mesi dello scorso anno. Un progetto supportato dal lavoro di una community di volontari che si è prestata all’analisi dei 5,5 milioni di clip e all’aggiunta dei metadati poi impiegati per istruire gli algoritmi di riconoscimento o sintesi vocale specificando ad esempio l’età di chi le ha fornite, il sesso e l’accento.
Common Voice è pensato per integrarsi con DeepSpeech, una suite open source per i motori speech-to-tech e text-to-speech, così come con i modelli messi a punto dal Machine Learning Group di Mozilla.
L’italiano è tra le cinque lingue presenti in Common Voice con oltre 5.000 voci diverse insieme a inglese, francese, tedesco e spagnolo. Sono invece sette quelle con più di 500 ore di registrazioni: inglese, tedesco, francese, catalano, spagnolo, cabilo e kinyarwanda.
Nell’occasione la software house ha reso disponibile anche il primo dataset con clip pensate per un uso specifico: la pronuncia dei numeri “zero” a “nove”, le parole “sì” e “no”, i comandi “ehi” e “Firefox” con circa 120 ore di audio in 18 lingue diverse. Come già svelato in precedenza tornerà utile anche per il test della wakeword “Ehi Firefox”.