Mauro Vecchio

Google legge col Captcha

BigG acquisisce il progetto di data entry reCAPTCHA e sembra prendere due piccioni con una fava: difendersi dagli spammer e leggere meglio testi danneggiati o astrusi

Roma - C'è un post, sul blog ufficiale di Google, che si intitola Insegnare ai computer a leggere, scritto da Luis Von Ahn e Will Cathcart. Il primo è un accademico della Carnegie Mellon University, autore del progetto CAPTCHA, ovvero il test utilizzato per determinare se a digitare sia un umano o un bot. Il secondo è un product manager della stessa Google che, nel post ufficiale, ha dichiarato di essere "felice di annunciare a tutti di aver acquisito reCAPTCHA, per aiutare a proteggere più di 100mila siti da spam e frodi elettroniche".

Il progetto Completely Automated Public Turing test to tell Computers and Humans Apart (CAPTCHA) è finito con l'evolversi in una vera e propria azienda, reCAPTCHA: "Le avrete probabilmente già viste - si legge sul sito ufficiale - immagini a colori con caratteri distorti sul fondo dei moduli di registrazione web". Google ha innanzitutto presentato l'acquisizione come un prezioso strumento a disposizione nella lotta a malware e allo spamming di massa.

C'è, tuttavia, un secondo intento per BigG nelle operazioni di acquisizione dell'azienda fornitrice dei caratteri tremolanti e scarabocchiati: i CAPTCHA aiutano la macchina a decifrare stralci di testo difficili da identificare, in particolare se si stanno effettuando attività di digitalizzazione di testi analogici. E qui le orecchie di Google si sono ben drizzate: "Le parole in molti dei CAPTCHA - hanno continuato gli autori del post - provengono da archivi scansionati di giornali e vecchi libri. I computer incontrano difficoltà nel leggerle perché sia l'inchiostro che la carta si sono rovinati nel tempo, ma digitandole attraverso i CAPTCHA le persone riescono ad insegnare alle macchine a leggere il testo scansionato".
Con reCAPTCHA, dunque, Mountain View sembra aver preso i classici due piccioni con una sola fava: difendere la rete dagli spammer e tentare di risolvere i problemi tecnici riscontrati con la Optical Character Recognition (OCR) nelle attività di digitalizzazione dei testi danneggiati o con font sconosciuti. Luis Von Ahn ora rimarrà alla Carnegie Mellon, nonostante il nuovo impiego con la Grande G. "Continuerò a seguire gli studenti - ha dichiarato - ovviamente su progetti non legati a Google".

Mauro Vecchio
Notizie collegate
18 Commenti alla Notizia Google legge col Captcha
Ordina
  • Ritengo CAPTCHA un servizio intelligente e un sistema furbo per la catalogazione di vecchi testi. Non vedo il perchè molti siano perplessi.
    Lo dovrebbero usare anche qui per inserire questi commenti.
    non+autenticato
  • Mi stupisco che stiamo ancora investendo su una tecnologia simile, quando ormai è comprovato che Hiddy e l'idea che ne stanno alla base sono più che validi.
  • Bene la prima parte della notizia.
    LA seconda è un balla: se Google mettesse parte dei testi scritti a mano o comunque immagini deteriorate, come farebbe poi a controllare che il testo immesso dall'utente sia "corretto"?
    Infatti nei Captcha il testo "nascosto" è noto al server remoto, che deve solo confronatrlo con la stringa immessa dall'uente.
    Luigi Rosa
    non+autenticato
  • - Scritto da: Luigi Rosa
    > Bene la prima parte della notizia.
    > LA seconda è un balla: se Google mettesse parte
    > dei testi scritti a mano o comunque immagini
    > deteriorate, come farebbe poi a controllare che
    > il testo immesso dall'utente sia
    > "corretto"?
    > Infatti nei Captcha il testo "nascosto" è noto al
    > server remoto, che deve solo confronatrlo con la
    > stringa immessa
    > dall'uente.
    > Luigi Rosa

    Senti il servizio reCaptcha c'è da una vita, la differenza è che ora l'ha comprato Google.
    Semplicemente all'utente vengono date due parole, una corrisponde a un testo che google già conosce nel suo database e l'altra no.
    Poi confrontando tra tanti utenti si vede per quella parola sconosciuta cosa hanno messo.
    Comunque non è solo questo, è un meccanismo ben oliato, hanno già tentato di fregarlo in passato, dietro c'è un'azienda che ci lavora da un bel po'.
    Cercate di essere meno presuntuosi per favore.
    non+autenticato
  • - Scritto da: anonimo
    > - Scritto da: Luigi Rosa
    > > Bene la prima parte della notizia.
    > > LA seconda è un balla: se Google mettesse parte
    > > dei testi scritti a mano o comunque immagini
    > > deteriorate, come farebbe poi a controllare che
    > > il testo immesso dall'utente sia
    > > "corretto"?
    > > Infatti nei Captcha il testo "nascosto" è noto
    > al
    > > server remoto, che deve solo confronatrlo con la
    > > stringa immessa
    > > dall'uente.
    > > Luigi Rosa
    >
    > Senti il servizio reCaptcha c'è da una vita, la
    > differenza è che ora l'ha comprato
    > Google.
    > Semplicemente all'utente vengono date due parole,
    > una corrisponde a un testo che google già conosce
    > nel suo database e l'altra
    > no.
    > Poi confrontando tra tanti utenti si vede per
    > quella parola sconosciuta cosa hanno
    > messo.
    > Comunque non è solo questo, è un meccanismo ben
    > oliato, hanno già tentato di fregarlo in passato,
    > dietro c'è un'azienda che ci lavora da un bel
    > po'.
    >
    > Cercate di essere meno presuntuosi per favore.

    Non si tratta di essere presuntuosi ma di capire.

    Il meccanismo dovrebbe funzionare solo se ci sono due o più utenti che più o meno *CONTEMPORANEAMENTE* accedono allo stesso captcha. E' inutile mettere un captcha "noto" e uno "sconosciuto" in quanto il server dovrà comunque sapere tutti e due per validare l'accesso.

    Il captcha da decifrare sarà considerato giusto quando più persone immettono le stesse lettere, ma questo deve avvenire a breve distanza di tempo altrimenti l'utente che sta accedendo ad un servizio dovrebbe spettare che qualcun altro, da un'altra parte del mondo, risolva lo stesso captcha affinché il server abbia la soluzione per fornire l'accesso (e per risolvere il testo) a tutti gli utenti.

    Dovrebbe cioè funzionare bene dove ci sono sistemi molto estesi e con frequenti accessi altrimenti si potrebbe essere un bel ritardo tra il momento in cui si digita il captcha e il momento in cui si può proseguire per l'accesso al servizio.
    non+autenticato
  • No, forse c'è una cosa che ti sfugge: per entrare l'utente deve indovinare solo il vero CAPTCHA, non quello "finto". Chiaramente lui non lo sa: li digita entrambi; il server ti fa accedere se hai indovinato quello vero e mette da parte il risultato su quello finto per poi confrontarlo con quello degli altri utenti - cavia.
  • - Scritto da: advange
    > No, forse c'è una cosa che ti sfugge: per entrare
    > l'utente deve indovinare solo il vero CAPTCHA,
    > non quello "finto". Chiaramente lui non lo sa: li
    > digita entrambi; il server ti fa accedere se hai
    > indovinato quello vero e mette da parte il
    > risultato su quello finto per poi confrontarlo
    > con quello degli altri utenti -
    > cavia.

    OK, manca un altro passo allora: entrambi i pezzi di testo devono essere tratti da OCR non riconosciuti ma uno dei due deve già essere stato passato al vaglio e riconosciuto con questo sistema.

    Oltre al vantaggio di ottenere il riconoscimento di testi che gli OCR non avevano riconosciuto, il sistema aumenta anche la difficoltà di accesso al servizio protetto dal captcha. Per ottenere ciò occorre che entrambi i captcha siano difficili da indovinare altrimenti per un bot basta indovinare quello facile per superare il test.

    Occorre cioè che il captcha "vero" (quello dei due che ti fa solo guadagnare l'accesso) sia un captcha di quelli "finti" (da un OCR non riconosciuto) già indovinato e consolidato precedentemente da altri utenti altrimenti non c'è particolare difficoltà nell'indovinare un solo captcha "facile" che quindi anche un bot potrebbe fare (scrivendo qualche cosa di casuale per l'altro) guadagnando comunque l'accesso.
    non+autenticato
  • - Scritto da: Sky
    > Non si tratta di essere presuntuosi ma di capire.
    >

    Invece si tratta sì di non sparare che è una bufala se non si è capito niente del servizio! Fra l'altro riguardo a una cosa che viene già utilizzata da tempo.
    Per il resto ti ha risposto advange sotto.
    non+autenticato
  • - Scritto da: anonimo
    > - Scritto da: Sky
    > > Non si tratta di essere presuntuosi ma di
    > capire.
    > >
    >
    > Invece si tratta sì di non sparare che è una
    > bufala se non si è capito niente del servizio!
    > Fra l'altro riguardo a una cosa che viene già
    > utilizzata da
    > tempo.
    > Per il resto ti ha risposto advange sotto.

    Guarda che non ho scritto io il post sopra.
    Anche se è una cosa utilizzata da tempo, non implica che non si possano avere chiarimenti riguardo al suo funzionamento per chi non lo sa.
    Buon cuore chi ha voluto rispondere.
    non+autenticato
  • - Scritto da: Sky
    > - Scritto da: anonimo
    > > - Scritto da: Sky
    > > > Non si tratta di essere presuntuosi ma di
    > > capire.
    > > >
    > >
    > > Invece si tratta sì di non sparare che è una
    > > bufala se non si è capito niente del servizio!
    > > Fra l'altro riguardo a una cosa che viene già
    > > utilizzata da
    > > tempo.
    > > Per il resto ti ha risposto advange sotto.
    >
    > Guarda che non ho scritto io il post sopra.
    > Anche se è una cosa utilizzata da tempo, non
    > implica che non si possano avere chiarimenti
    > riguardo al suo funzionamento per chi non lo
    > sa.
    > Buon cuore chi ha voluto rispondere.

    Non ho detto che eri tu, ma se uno inizia dicendo che è una bufala, una cavolata ecc... e gli rispondo a modo, non è che mi puoi dire: non si tratta di essere presuntuosi si sta cercando di capire, perché lui non cercava di capire e sono un po' stufo della gente così.

    Qui c'è un articolo dettagliato su recaptcha:
    http://recaptcha.net/reCAPTCHA_Science.pdf
    non+autenticato
  • - Scritto da: anonimo
    ...
    > Qui c'è un articolo dettagliato su recaptcha:
    > http://recaptcha.net/reCAPTCHA_Science.pdf

    Adesso ho capito. Il dubbio era sulla parola che loro chiamano "di controllo" cioè quella che decide se il test è passato oppure no.
    Questa viene scelta tra le parole che ottengono tre risposte immediatamente uguali (al primo tentativo) dagli "umani" e che sia diversa da tutte le ipotesi che tutti gli OCR avevano fatto su quella stessa parola. In pratica una parola non indovinabile dagli OCR neanche per sbaglio ma immediatamente o quasi comprensibile agli "umani". Da qui la doppia sicurezza che non non è un bot che passa il test e che quindi l'altra parola potrebbe avere una buona interpretazione.
    non+autenticato
  • Questa ci mancava: in futuro al posto di abbinare il programma OCR allo scanner, daranno l' accesso ad un servizio online che fa la stessa cosa basandosi sul feedback di migliaia di utenti?

    Beh, in fondo lo fanno già con le traduzioni (al posto di realizzare software di traduzione, forniscono il servizio online)
    non+autenticato
  • Banalmente servirà anche ai loro progetti di scansione di libri: infatti, anche se non disponibile all'utente, l'OCR servirà all'indicizzazione del contenuto!
    non+autenticato
  • "i CAPTCHA aiutano la macchina a decifrare stralci di testo difficili da identificare"???

    Turing ha avuto un sussulto nella tomba.
    non+autenticato
  • Dall'articolo non si capisce, in realtà ne avevo sentito parlare un paio di anni fa.

    Semplificando, anziché presentare il solito captcha random (tipo ds87fdsx) il sistema presenta un pezzo di scansione che l'OCR non è riuscito a decifrare più un pezzo noto (il vero captcha): l'utente ovviamente non sa qual è il vero captcha e li scrive entrambe, facendo da OCR umano.

    Ripeto, questa è una semplificazione estrema ma il meccanismo dovrebbe essere una cosa del genere.
    non+autenticato
  • Rileggendo l'articolo dopo aver letto il tuo commento sembra che effettivamente sia qualcosa di simile a quello che dici tu.
    Però in questo caso sarebbe da tenere in considerazione l'errore umano, quindi far vedere la stessa cosa a più utenti in diversi momenti per scartare gli errori occasionali.
    non+autenticato
  • > Però in questo caso sarebbe da tenere in
    > considerazione l'errore umano, quindi far vedere
    > la stessa cosa a più utenti in diversi momenti
    > per scartare gli errori occasionali.

    In effetti funziona proprio così!
    L'articolista ha dato per scontato che il lettore conoscesse già i recaptcha.
    Qui è ben spiegato il tutto:
    http://recaptcha.net/
    non+autenticato
  • > "i CAPTCHA aiutano la macchina a decifrare stralci di testo difficili da identificare"???

    Penso che l'articolista intendesse dire che i software utilizzati per bypassare i CAPTCHA possono essere utili per migliorare i risultati degli OCR

    > Turing ha avuto un sussulto nella tomba.
    Se lo fa, è perché viene nominato senza motivoSorride
    non+autenticato