Meta ha recentemente presentato NotebookLlama, un’implementazione “aperta” della popolare funzione di generazione di podcast di NotebookLM di Google. Questo progetto sfrutta i modelli Llama di Meta per la maggior parte dell’elaborazione, consentendo agli utenti di generare sintesi in formato podcast a partire da file di testo caricati, in modo simile a quanto offerto, appunto, da NotebookLM.
NotebookLlama di Llama per generare i podcast
Il funzionamento di NotebookLlama prevede diversi passaggi. In primo luogo, il sistema crea una trascrizione del file di input, che può essere un PDF di un articolo di giornale o un post di un blog. Successivamente, aggiunge elementi di “drammatizzazione” e pause strategiche prima di inviare la trascrizione a modelli text-to-speech di tipo open-source per la generazione dell’audio finale.
Attualmente, i risultati ottenuti con NotebookLlama non raggiungono la qualità di quelli prodotti da NotebookLM di Google. Nei campioni ascoltati, le voci generate presentano una marcata caratteristica robotica e tendono a sovrapporsi in punti inaspettati. Tuttavia, i ricercatori di Meta che stanno sviluppando il progetto ritengono che la qualità possa essere migliorata utilizzando modelli più robusti.
Sulla pagina GitHub di NotebookLlama, hanno evidenziato come il modello text-to-speech rappresenti il principale limite per la naturalezza del suono. Inoltre, hanno suggerito un approccio alternativo per la scrittura del podcast, che prevederebbe l’utilizzo di due agenti in grado di discutere l’argomento di interesse e generare la scaletta del podcast in modo collaborativo, anziché affidarsi a un singolo modello.
I limiti dei generatori di podcast AI
NotebookLlama non è il primo tentativo di replicare la funzionalità di generazione di podcast offerta da NotebookLM. Altri progetti hanno cercato di raggiungere questo obiettivo, con risultati variabili. Tuttavia, nessuno di questi, incluso NotebookLM stesso, è stato in grado di risolvere il problema delle allucinazioni che affligge tutte le intelligenze artificiali. Ciò significa che i podcast generati dall’AI sono intrinsecamente soggetti a contenere informazioni inventate o non accurate.