Come trascrivere gratis il testo di un video con Whisper AI

Come trascrivere gratis il testo di un video o di un audio con Whisper AI

L'intelligenza artificiale può essere utilizzata per trascrivere velocemente video e audio: ecco come farlo grazie a Whisper di OpenAI.
Come trascrivere gratis il testo di un video o di un audio con Whisper AI
L'intelligenza artificiale può essere utilizzata per trascrivere velocemente video e audio: ecco come farlo grazie a Whisper di OpenAI.

L’organizzazione no-profit OpenAI fondata e tutt’oggi guidata da Sam Altman non propone esclusivamente il rinomato modello di linguaggio GPT-4 al pubblico. Il Generative Pre-trained Transformer, giunto alla quarta generazione, resta inevitabilmente il cavallo di battaglia della start-up statunitense in quanto è la base su cui operano ChatGPT e Bing Chat di Microsoft. Esistono però anche altre tecnologie basate sull’intelligenza artificiale, rilasciate tra fine 2022 e inizio 2023, con scopi differenti.

Nel settembre 2022, in particolar modo, è nato Whisper, rete neurale open-source allenata per approcciarsi a contenuti audio e video autentici ed effettuarne la trascrizione velocemente e in più lingue. Come funziona e come può essere utilizzato? Andiamo a scoprirlo assieme!

Come funziona Whisper

OpenAI

Whisper viene descritto da OpenAI come un sistema di riconoscimento vocale automatico (ASR) addestrato su 680.000 ore di dati supervisionati “multilingue e multitasking” raccolti dal web. L’uso di un set di dati così ampio e diversificato permette di ottenere informazioni più solide e affidabili per quanto concerne gli accenti, la rimozione del rumore di fondo e la comprensione del linguaggio tecnico, non solo in inglese (che naturalmente resta la lingua con la quale l’IA lavora nelle condizioni migliori, offrendo output eccellenti) ma anche in altre lingue. Circa un terzo del set di dati audio consegnati in pasto a Whisper, difatti, non è in inglese.

Il modo in cui funziona Whisper è piuttosto intuitivo, sorprendentemente. Si tratta di un semplice approccio end-to-end nel quale l’audio in ingresso viene suddiviso in blocchi di 30 secondi, convertito in uno spettrogramma e quindi passato a un codificatore. Quest’ultimo è addestrato per prevedere il testo corrispondente al feed audio fornito come input, indirizzando il modello verso la lingua giusta. Whisper, dunque, inizia a effettuare la trascrizione vocale in inglese, offre la possibilità di completarla in altre opzioni e fornisce persino i timestamp per associare il testo al momento giusto del video o del file audio.

Altri approcci già esistenti utilizzano spesso set di dati audio-testo più piccoli o si servono di un addestramento audio ampio preliminare non supervisionato. Al contrario, Whisper è allenato con un dataset ampio e diversificato e non è stato messo a punto per nessun uso specifico; insomma, si tratta di una soluzione open-source estremamente versatile, che non pareggia le performance di LibriSpeech ma fa il 50% in meno di errori rispetto ad altri modelli dal caso d’uso ben definito.

Disponibile su GitHub, può essere scaricato in cinque varianti differenti (Tiny, Base, Small, Medium, Large) per accedere a un numero superiore di parametri, da un minimo di 39 milioni fino a un massimo di 1,5 miliardi. Ne consegue, logicamente, che per eseguire un modello di medie-grandi dimensioni – ovvero più performante – sono necessarie più risorse di sistema.

Usare Whisper con Replicate

Replicate AI Logo

Come si può utilizzare Whisper senza un computer di fascia alta o un server ad hoc? Tramite Replicate che, anzi, ne consente l’utilizzo direttamente da browser. In precedenza abbiamo già visto cos’è Replicate e come funziona ma, per riassumere il progetto, si tratta di uno strumento concepito per facilitare l’utilizzo di modelli di intelligenza artificiale e machine learning. In che modo? Integrando soluzioni come Stable Diffusion, Vicuna-13b, StableLM e Bark in un unico servizio controllabile tramite uno strumento open source proprietario, e acquistando semplicemente il tempo di calcolo su server più o meno performanti.

Nel caso di Whisper, però, Replicate fornisce un sito Web pubblico gratuito che lascia agli utenti la libertà di caricare un file audio e ricevere la trascrizione dopo un’attesa più o meno lunga. Scendendo nel dettaglio, una volta recatisi sul sito basta effettuare l’upload del documento di interesse, scegliere il modello di Whisper (sono disponibili solo Large e Large-v2, una versione più aggiornata e performante), il formato della trascrizione (testo normale, file SRT per sottotitoli, o file VTT) e la traduzione eventuale in inglese. Ancora, tra gli altri parametri specifici figurano la lingua del file originale per facilitare il lavoro a Whisper, o la rimozione della punteggiatura.

Whisper su Replicate opera tramite GPU NVIDIA T4, che richiedono circa 75 secondi per lavorare con file di media lunghezza. Inoltre, il modello sembra riscontrare alcuni problemi nella determinazione della lingua nel caso in cui si inserisca il parametro apposito. Di conseguenza, potrebbe risultare più conveniente la mancata specificazione della lingua del file e lasciare all’intelligenza artificiale il compito di comprendere il linguaggio.

Il consiglio resta quello di fornire a Whisper estratti audio in input che siano già sufficientemente chiari, cosicché l’IA non incorra in blocchi e intoppi nella trascrizione. Il risultato resta comunque sorprendente: l’intelligenza artificiale riesce a fornire sia trascrizioni che traduzioni di alto livello, rispettando le pause di chi sta parlando, ma senza suddividere un dialogo tra più persone anche nel formato scritto. Di conseguenza, per un’alternativa testuale pienamente fedele al contenuto audio originale è necessario intervenire applicando alcune modifiche e verificando che l’IA non abbia mal interpretato certe parole, se non intere frasi. Può capitare, del resto, qualche errore, sebbene l’italiano risulti tra le lingue meglio supportate da Whisper.

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
28 giu 2023
Link copiato negli appunti