Dal blog ufficiale di Google l’annuncio che il codec audio battezzato Lyra diventa open source. È dunque da ora in avanti disponibile per tutti coloro che desiderano impiegarlo in applicazioni e servizi dedicati alla comunicazione vocale.
Codec audio e machine learning: Lyra è open source
Il funzionamento si basa su un mix fra tecniche tradizionali impiegate anche da altri codec e algoritmi di intelligenza artificiale che rendono possibili chiamate di qualità elevata con un bitrate ridotto a soli 3 kbps.
La sua architettura è formata da due componenti. Anziché inviare l’intero spettro del flusso acquisito dal microfono, quando l’utente parla, l’encoder cattura ogni 40 millisecondi alcuni attributi distintivi del segnale da trasmettere. Poi li passa al decoder che si occupa di convertirli nella forma d’onda da riprodurre all’altro capo della conversazione. Per meglio capire di cosa si tratta e qual è la sua principale finalità d’impiego facciamo riferimento alla descrizione riportata su GitHub.
Lyra è uno speech codec di alta qualità e che richiede un bitrate contenuto, rendendo possibile la comunicazione vocale anche sui network più lenti. Per farlo, applica le tecniche tradizionali dei codec facendo leva sulle ultime evoluzioni del machine learning, con modelli istruiti da dati per migliaia di ore così da creare un metodo in grado di comprimere e trasmettere il segnale della voce.
Una tecnologia come quella proposta da Lyra potrà tornare utile nelle aree dove le connessioni non sono delle migliori, ma anche in scenari come quelli che si sono manifestati a livello globale nella primavera scorsa, quando i lockdown hanno costretto le persone a comunicare via Internet arrivando a saturare i network e creando non pochi grattacapi a coloro delegati alla gestione delle infrastrutture.