Meta rilascia NotebookLlama, il generatore di podcast open source

Meta ha recentemente presentato NotebookLlama, un’implementazione “aperta” della popolare funzione di generazione di podcast di NotebookLM di Google. Questo progetto sfrutta i modelli Llama di Meta per la maggior parte dell’elaborazione, consentendo agli utenti di generare sintesi in formato podcast a partire da file di testo caricati, in modo simile a quanto offerto, appunto, da NotebookLM.

NotebookLlama di Llama per generare i podcast

Il funzionamento di NotebookLlama prevede diversi passaggi. In primo luogo, il sistema crea una trascrizione del file di input, che può essere un PDF di un articolo di giornale o un post di un blog. Successivamente, aggiunge elementi di “drammatizzazione” e pause strategiche prima di inviare la trascrizione a modelli text-to-speech di tipo open-source per la generazione dell’audio finale.

Attualmente, i risultati ottenuti con NotebookLlama non raggiungono la qualità di quelli prodotti da NotebookLM di Google. Nei campioni ascoltati, le voci generate presentano una marcata caratteristica robotica e tendono a sovrapporsi in punti inaspettati. Tuttavia, i ricercatori di Meta che stanno sviluppando il progetto ritengono che la qualità possa essere migliorata utilizzando modelli più robusti.

Sulla pagina GitHub di NotebookLlama, hanno evidenziato come il modello text-to-speech rappresenti il principale limite per la naturalezza del suono. Inoltre, hanno suggerito un approccio alternativo per la scrittura del podcast, che prevederebbe l’utilizzo di due agenti in grado di discutere l’argomento di interesse e generare la scaletta del podcast in modo collaborativo, anziché affidarsi a un singolo modello.

I limiti dei generatori di podcast AI

NotebookLlama non è il primo tentativo di replicare la funzionalità di generazione di podcast offerta da NotebookLM. Altri progetti hanno cercato di raggiungere questo obiettivo, con risultati variabili. Tuttavia, nessuno di questi, incluso NotebookLM stesso, è stato in grado di risolvere il problema delle allucinazioni che affligge tutte le intelligenze artificiali. Ciò significa che i podcast generati dall’AI sono intrinsecamente soggetti a contenere informazioni inventate o non accurate.

Annulla

Stai citando questo messaggio:

La tua email sarà utilizzata per comunicarti se qualcuno risponde al tuo commento e non sarà pubblicata. Dichiari di avere preso visione e di accettare quanto previsto dalla informativa privacy.
Pubblicando questo commento dai il consenso affinché un cookie salvi i tuoi dati (nome, email, sito web) per il prossimo commento.

Iscrivimi alla newsletter gratuita di Punto Informatico Tutte le mattine direttamente nella tua casella email tutte le novità del mondo digitale e tech