Dopo avere subito il duro colpo della multa da 1,2 miliardi di euro per avere violato il GDPR, Meta cerca di riguadagnare il favore del pubblico attivandosi con un nuovo progetto molto interessante correlato all’intelligenza artificiale. Di cosa si tratta? Della preservazione delle diversità linguistiche tramite i modelli di ricerca Massively Multilingual Speech AI, i quali promettono di identificare oltre 4.000 lingue parlate tramite text-to-speech e speech-to-text.
Meta guarda con interesse alle diversità linguistiche
Con un comunicato pubblicato sul blog ufficiale, la società di Mark Zuckerberg ha fatto notare il pericolo della scomparsa di una miriade di lingue poco parlate, ereditate da gruppi sociali ridotti e nascoste alla maggior parte della popolazione globale. Per facilitare l’accesso anche ad esse, Meta scommette sui suoi modelli Massively Multilingual Speech (detti altrimenti MMS).
Tramite le IA e il machine learning, l’azienda di Menlo Park ha raccolto dati audio da migliaia di lingue differenti, avvalendosi principalmente di testi religiosi tradotti, come la Bibbia. Sfruttando le traduzioni e paragonando i testi, è sorto un dataset di letture del Nuovo Testamento in oltre 1.100 lingue differenti, per poi raggiungere quota 4.000 avvalendosi di altri documenti cristiani.
Sebbene questi dati provengano da un dominio specifico e siano spesso letti da oratori di sesso maschile, l’analisi mostra che i modelli firmati Meta funzionano ugualmente bene per voci maschili e femminili. E mentre il contenuto delle registrazioni audio è religioso, è evidente che il modello possa funzionare anche con contenuti non inerenti alla religione.
Si tratta ancora di soluzioni imperfette da addestrare ulteriormente; ciononostante, costituiscono una base eccellente sulla quale operare al fine di proteggere lingue a rischio.