Gli esseri umani hanno capacità uditive uniche come l’udito binaurale, che consente di identificare tipologie di suono, la loro provenienza spaziale e distanza, distinguendo fonti sonore multiple in contemporanea. Nonostante le straordinarie capacità dei grandi modelli linguistici (LLM) di comprendere il linguaggio parlato, rispondere a domande audio e persino tradurre e sintetizzare la voce umana, essi non sono ancora in grado di cogliere alcuni aspetti chiave del suono, come origine, direzione e distanza della fonte sonora.
Gli LLM attuali, per quanto avanzati, non possiedono infatti la stessa acutezza uditiva degli esseri umani nel localizzare e decifrare suoni nello spazio tridimensionale.
BAT: il primo LLM spaziale basato sull’audio
Ora un team di ricercatori ha compiuto passi avanti significativi in questa complessa sfida, sviluppando BAT, il primo LLM spaziale basato sull’audio in grado di ragionare sui suoni in un ambiente tridimensionale. Questa innovazione avvicina le capacità delle AI al sofisticato udito umano.
BAT, infatti, mostra una notevole precisione nel classificare i tipi di audio, la direzione e la distanza delle fonti sonore, e il ragionamento spaziale in situazioni di sovrapposizione di suoni diversi.
L’importanza dell’audio spaziale per l’IA
L’audio spaziale è una tecnologia che crea l’effetto di fonti sonore in uno spazio tridimensionale. È usata in vari ambiti, come la realtà virtuale, i sistemi teatrali avanzati e il metaverso. Tuttavia, l’audio spaziale è una sfida per l’intelligenza artificiale e i machine learning, perché richiede agli agenti AI di localizzare e interpretare le fonti sonore in spazi tridimensionali. Per affrontare questa sfida, sono state sviluppate diverse tecniche e algoritmi che integrano informazioni audio spaziali, come YouTube-360 e STARSS23.
I limiti degli altri modelli nel campo dell’audio
Nonostante i recenti progressi nell’elaborazione audio da parte dell’AI, i modelli esistenti presentano ancora limiti nel percepire e ragionare su suoni spaziali in ambienti 3D complessi e riverberanti. Sistemi come AudioGPT, LTU e Qwen-audio mostrano una qualità non coerente e mancano di fondamentali “etichette di verità” come distanza e direzione della fonte.
Inoltre, spesso si basano su una comprensione superficiale dell’audio spaziale, come il rilevamento e localizzazione di eventi sonori in Sound Event Localization and Detection. Per percepire lo spazio sonoro 3D in modo più profondo, come l’udito umano, servono modelli più avanzati.
Le capacità di BAT
Secondo i ricercatori che l’hanno sviluppato, BAT rappresenta un passo avanti significativo verso sistemi di intelligenza artificiale realmente multimodali. Questo modello linguistico dimostra forti capacità di ragionamento spaziale su suoni e sorgenti sonore miste, raggiungendo un’accuratezza del 77% nei test.
Il suo innovativo codificatore audio spaziale sottostante ha ottenuto una precisione media superiore al 50% nell’identificazione del tipo di suono, un errore angolare medio di soli 18 gradi nel localizzare la direzione e una stima della distanza entro 1,64 piedi dalla posizione reale nel 32,54% dei casi. Si tratta di risultati che avvicinano l’AI alle capacità uditive umane.