Elia Tufarolo

Google, riconoscimento vocale open source per le IA

Anche Mountain View pubblica un dataset di registrazioni vocali, sia per agevolare la creazione di IA, sia per pubblicizzare il proprio framework TensorFlow

Roma - Dopo Mozilla Foundation, che ha rilasciato il progetto Common Voice il mese scorso, anche Google ha recentemente dato un suo contributo per la creazione di intelligenze artificiali sempre più efficaci nelle operazioni di riconoscimento vocale (speech-to-text).

Con un articolo sul proprio blog, i team di TensorFlow e AIY hanno annunciato la pubblicazione dello Speech Commands Dataset: un dataset, appunto, contenente 65.000 registrazioni vocali di 30 semplici parole, pronunciate da volontari provenienti da tutto il mondo.

Il dataset, disponibile per il download, è stato rilasciato sotto licenza Creative Commons BY 4.0; le applicazioni Web ed Android utilizzate per la sua creazione, invece, sono state rilasciate sotto licenza Apache 2.0, la quale consente, a differenza della prima, di imporre limitazioni all'utilizzo di eventuali versioni modificate.
È possibile contribuire alla crescita del dataset inviando fino a 135 registrazioni, attraverso l'applicazione Web disponibile sul sito di Google AIY.

open speech recording

Sono inoltre disponibili, oltre all'immagine Docker del framework TensorFlow, una serie di applicazioni di esempio che sfruttano le capacità del framework, oltre a dei tutorial per il training dei propri modelli di riconoscimento vocale.

Elia Tufarolo

Fonte Immagine
Notizie collegate
10 Commenti alla Notizia Google, riconoscimento vocale open source per le IA
Ordina
  • 30 parole dette anche un milione di volte, sono sempre 30 parole e non servono sicuramente a creare un modello per il riconoscimento vocale.

    Servono solo ad addestrare una rete neurale, costruita su TensorFlow come avevano già fatto in passato con gli OCR, per puro scopo didattico.

    Quindi questo progetto non ha proprio nulla a che vedere con quello di Mozilla o quello già in essere di Spynx in cui si chiede di leggere delle frasi (lettura testo continua), per creare una serie di modelli linguistici.
    non+autenticato
  • ma alla fine il cazzapocchio (mi rifiuto di usare la parola AI per cose che non sono "vere" AI) sara usabile off line? no, perche se poi come al solito dipende da una connessione obbligatoria ai server google, la risposta e' solo e sempre "No grazie. E vaffanqlo".
    non+autenticato
  • AI e' troppo pesante per smartphone e gadget vari, quindi e' abbastanza normale affidarsi al cloud per i calcoli
  • - Scritto da: benkj
    > AI e' troppo pesante per smartphone e gadget
    > vari, quindi e' abbastanza normale affidarsi al
    > cloud per i
    > calcoli

    e allora a che cazzo servono 4 core e 8GB di ram se non riescono a gestire ste cose?
    non+autenticato
  • e che ne so, il mio telefono cinese ne 2gb di ram e mi avanzano, se ti compri roba inutile sei tu che devi farti delle domande.
  • oltretutto senza una gpu cuda le deep networks te le scordi proprio
  • - Scritto da: benkj
    > AI e' troppo pesante per smartphone e gadget
    > vari, quindi e' abbastanza normale affidarsi al
    > cloud per i
    > calcoli

    Balle!
    Smartphone e gadget vari hanno una potenza di calcolo e una memoria migliaia di volte superiore a quella di macchine di un decennio fa in cui la AI girava discretamente.

    C'e' una precisa volonta' commerciale di accentrare tutto sul cloud, non certo tecnica.
  • - Scritto da: ...
    > ma alla fine il cazzapocchio (mi rifiuto di usare
    > la parola AI per cose che non sono "vere" AI)
    > sara usabile off line? no, perche se poi come al
    > solito dipende da una connessione obbligatoria ai
    > server google, la risposta e' solo e sempre "No
    > grazie. E
    > vaffanqlo".

    Il riconoscimento vocale ?

    Guarda che l'informatica non è nata con l'iPhone o l'iPad (come qualche macaco asserisce) c'era anche prima, e prima ancora di Google.

    Quei cosi funzionavano prima degli anni 2000 abbastanza bene.

    Il riconoscitore di Google se non hai rete dati, funziona anche offline, ma è ovvio che se fai una ricerca non funziona perché non si integra col motore di ricerca, ma la tastiera vocale per esempio funziona.

    Ciò che è costoso in termini di CPU è il training.

    Se Mozilla sta chiedendo i dati vocali, lo fa perché sta preparando un modello ed se Google fornisce i suoi dati lo fa a quello scopo.

    Una volta stabilito il modello vocale si crea un bundle e si può mettere dove si vuole anche su un monocore.
    non+autenticato
  • - Scritto da: Lollo
    > - Scritto da: ...
    > > ma alla fine il cazzapocchio (mi rifiuto di
    > usare
    > > la parola AI per cose che non sono "vere" AI)
    > > sara usabile off line? no, perche se poi
    > come
    > al
    > > solito dipende da una connessione
    > obbligatoria
    > ai
    > > server google, la risposta e' solo e sempre
    > "No
    > > grazie. E
    > > vaffanqlo".
    >
    > Il riconoscimento vocale ?
    >
    > Guarda che l'informatica non è nata con l'iPhone
    > o l'iPad (come qualche macaco asserisce) c'era
    > anche prima, e prima ancora di
    > Google.
    >
    > Quei cosi funzionavano prima degli anni 2000
    > abbastanza
    > bene

    Beh insomma... fino al 2003-2004 lasciavano abbastanza a desiderare...
    non+autenticato
  • - Scritto da: Lollo
    > - Scritto da: ...
    > > ma alla fine il cazzapocchio (mi rifiuto di
    > usare
    > > la parola AI per cose che non sono "vere" AI)
    > > sara usabile off line? no, perche se poi
    > come
    > al
    > > solito dipende da una connessione
    > obbligatoria
    > ai
    > > server google, la risposta e' solo e sempre
    > "No
    > > grazie. E
    > > vaffanqlo".
    >
    > Il riconoscimento vocale ?
    >
    > Guarda che l'informatica non è nata con l'iPhone
    > o l'iPad (come qualche macaco asserisce) c'era
    > anche prima, e prima ancora di
    > Google.
    >
    > Quei cosi funzionavano prima degli anni 2000
    > abbastanza
    > bene.
    >
    > Il riconoscitore di Google se non hai rete dati,
    > funziona anche offline, ma è ovvio che se fai una
    > ricerca non funziona perché non si integra col
    > motore di ricerca, ma la tastiera vocale per
    > esempio
    > funziona.
    >
    > Ciò che è costoso in termini di CPU è il training.
    >
    > Se Mozilla sta chiedendo i dati vocali, lo fa
    > perché sta preparando un modello ed se Google
    > fornisce i suoi dati lo fa a quello
    > scopo.
    >
    > Una volta stabilito il modello vocale si crea un
    > bundle e si può mettere dove si vuole anche su un
    > monocore.

    Quoto tutto ed aggiungo che ci sono già casi di applicazioni AI pronte per smartphone. Ed anche componenti a basso consumo per gestire le reti neurali digitali
    non+autenticato