Per individuare un filmato bastano i fonemi

Nexidia ha realizzato un motore di ricerca capace di semplificare l'individuazione di contenuti audio-video: si basa sui fonemi invece che sull'analisi di tag testuali e allegati descrittivi

Roma - Il motore di ricerca basato su fonemi è probabilmente una delle più interessanti novità applicate al campo multimediale. Nexidia sta lavorando su questo fronte e ha annunciato lo sviluppo di un sistema di ricerca che permette di individuare termini e frasi presenti nei contenuti audio/video. I tecnici si sono concentrati nell'indicizzazione di fonemi, creando di fatto una matrice di riconoscimento che a loro dire è applicabile ad ogni tipo di file multimediale.

Le soluzioni tradizionali si affidano, di solito, o alla trascrizione completa dell'audio o all'utilizzo di allegati descrittivi dei contenuti. Il problema, però, è che nelle piattaforme di sharing più diffuse l'individuazione di un file è strettamente legata all'operato degli utenti e alla loro capacità di nominazione e descrizione dei contenuti uplodati. La questione si complica ulteriormente se si ha bisogno di ottenere un'informazione precisa, magari presente in un reportage giornalistico. Insomma, una ricerca testuale all'interno di un archivio multimediale è destinata a diventare sempre più complicata. Con migliaia di filmati o podcast disponibili online, un motore a fonema potrebbe dimostrarsi l'unica soluzione vincente per non perdere tempo.

Nexidia, al momento, vanta collaborazioni in ambito business e governativo. Gli utenti possono però testare le capacità di questa soluzione accedendo al nuovo motore di ricerca VideoNow utilizzato dal canale statunitense WXIA Channel 11. Il sito web ufficiale dispone di una stringa testuale di ricerca che permette di individuare ogni termine, digitato, all'interno dell'archivio video giornalistico. Si può procedere sia con l'inserimento di parole che con la loro trascrizione fonologica, in questo caso inglese. I risultati, sebbene si tratti di una Beta del servizio, sembrano più che soddisfacenti. Si ottiene in pochi secondi l'elenco dei servizi giornalistici dove è presente il termine ricercato.
Una versione multilingua, dicono gli sviluppatori, è decisamente a portata di mano se si considera che ogni idioma condivide almeno 40 fonemi e che al massimo ne utilizza univocamente 400. La documentazione pubblicata sul sito ufficiale da Nexidia lascia spazio all'immaginazione e alle applicazioni future. Domani, gestire il proprio archivio musicale su un lettore MP3 potrebbe diventare solo una questione di pronuncia, più che di manualità.

Dario d'Elia
7 Commenti alla Notizia Per individuare un filmato bastano i fonemi
Ordina
  • Il sito http://www.blinkx.com/ indicizza i video tramite riconoscimento vocale del contenuto.

  • - Scritto da: TheLoneGunman
    > Il sito http://www.blinkx.com/ indicizza i video
    > tramite riconoscimento vocale del
    > contenuto.

    Non mi sembra proprio. I video sono collegati a delle descrizioni, probabilmente in XML.
    non+autenticato
  • - Scritto da:
    >
    > - Scritto da: TheLoneGunman
    > > Il sito http://www.blinkx.com/ indicizza i video
    > > tramite riconoscimento vocale del
    > > contenuto.
    >
    > Non mi sembra proprio. I video sono collegati a
    > delle descrizioni, probabilmente in
    > XML.

    Può non sembrare ma il motore di ricerca riesce a capire di che parlano i video utilizzando il riconoscimento vocale.

    http://www.internetnews.com/xSP/article.php/363685...

    qua ne parla.
    -----------------------------------------------------------
    Modificato dall' autore il 13 ottobre 2006 12.16
    -----------------------------------------------------------
  • Neppure MPEG-7 e MPEG-21 in fase di implementazione da parte dell'industria e che nei prossimi anni saranno massicciamente utilizzati ovunque sono in grado di garantire un ricerca del genere. A parte poi le risorse necessarie per un motore di ricerca del genere e non è certo infallibile, anzi.
    Se avessero realizzato un prodotto simile avrebbero una miriade di campi di utilizzo fra cui ad esempio poter avere riconoscimento vocale e trascrizione automatica dei suoni da qualsiasi filmato. Ehh! I programmi di riconoscimento vocale non sono ancora perfetti, anzi, figurarsi come si possa credere che questi se ne possano uscire con un motore di ricerca che controlli l'audio di interi film e sia in grado di discernere perfettamente fra effetti sonori e voce umana in qualsiasi lingua.
    non+autenticato
  • Se pensi che bene o male la lingua utilizzata nei film ha sempre lo stesso accento, non dovrbebe essere così difficile. Se non altro si complica se cerchi i podcast fatti in napoletano, ad esempio.
    non+autenticato

  • - Scritto da:
    > Se pensi che bene o male la lingua utilizzata nei
    > film ha sempre lo stesso accento, non dovrbebe
    > essere così difficile. Se non altro si complica
    > se cerchi i podcast fatti in napoletano, ad
    > esempio.

    Ti assicuro che non ti rendi conto della complessità del problema. Aggiungici il fatto che programmi di riconoscimento vocale hanno tutti un livello di errore altissimo in presenza di un alto livello di rumore... in un film vi sono una marea di effetti speciali e musica anche nei flussi a canale separato come AC3 e DTS in cui il canale centrale per le voci non è che sia solo voci in chiaro senza altre frequenze occupate.
    non+autenticato
  • Beh, però quì si parla più che di film di servizi giornalistici, reportage: cose che contengono dati e notizie.

    A parte casi eccezionali la voce in questo campo è molto più forte del rumore. Potrebbe funzionare... Certo è invece che il tempo di calcolo per acquisire i dati potrebbe diventare notevole.