QTesseract5 è una interfaccia per Tesseract pensata per i file di sottotitoli IDX/SUB. I famosi sottotitoli in formato SUB, con l’indice in formato IDX, sono uno degli standard diffusi dai tempi dei Video DVD. Infatti, la denominazione ufficiale del formato è VobSub, ed è legata proprio agli standard dei DVD. Il problema è che non si tratta di testi, ma di immagini. Queste immagini vengono sovraimpresse in tempo reale al video, mentre lo si riproduce. Questo significa che sono relativamente complicati da modificare o tradurre, perché non sono testi. Per trasformarli in un file testuale, come i più moderni SRT, bisogna usare un programma OCR. Come Tesseract. Tuttavia, gli OCR non sono solitamente pensati per gestire anche le informazioni relative alla sincronizzazione dei sottotitoli. Ed è qui che QTesseract5 torna comodo: non soltanto si occupa di automatizzare la traduzione delle immagini in testo, ma mantiene anche la sincronizzazione creando un file SRT perfettamente funzionante.
Le informazioni di cui QTesseract5 ha bisogno sono la cartella che contiene i file IDX e quella che dovrà contenere l’output in formato SRT. La cartella temporanea viene creata automaticamente, e anche la posizione dei modelli di Tesseract viene trovata in modo automatico. Bisogna anche specificare la lingua su cui si lavora, così Tesseract può capire quali parole abbiano un senso compiuto.
Viene proposto il comando che può essere usato per la trascrizione dei sottotitoli, ma per comodità lo si può eseguire direttamente premendo Convert file, così si mantiene l’interfaccia grafica. L’avvio della procedura apre una finestra di dialogo con la barra di progresso, che mostra l’andamento della trascrizione. Si procede una immagine alla volta, quindi se il meccanismo dovesse bloccarsi si capisce subito dove stia il problema.
Se Tesseract non riesce a riconoscere un sottotitolo, il programma lo visualizza chiedendo di indicare la traduzione che si ritiene corretta. Succede in particolare quando vi sono altre lingue oltre a quella principale (per esempio citazioni in inglese in un testo italiano). Questo fa risparmiare molto tempo, perché è ovviamente molto più comodo rispetto al dover scorrere tutto il file SRT alla ricerca di eventuali errori.