Mauro Vecchio
giovedė 17 settembre 2009

Google legge col Captcha

BigG acquisisce il progetto di data entry reCAPTCHA e sembra prendere due piccioni con una fava: difendersi dagli spammer e leggere meglio testi danneggiati o astrusi

Roma - C'è un post, sul blog ufficiale di Google, che si intitola Insegnare ai computer a leggere, scritto da Luis Von Ahn e Will Cathcart. Il primo è un accademico della Carnegie Mellon University, autore del progetto CAPTCHA, ovvero il test utilizzato per determinare se a digitare sia un umano o un bot. Il secondo è un product manager della stessa Google che, nel post ufficiale, ha dichiarato di essere "felice di annunciare a tutti di aver acquisito reCAPTCHA, per aiutare a proteggere più di 100mila siti da spam e frodi elettroniche".

Il progetto Completely Automated Public Turing test to tell Computers and Humans Apart (CAPTCHA) è finito con l'evolversi in una vera e propria azienda, reCAPTCHA: "Le avrete probabilmente già viste - si legge sul sito ufficiale - immagini a colori con caratteri distorti sul fondo dei moduli di registrazione web". Google ha innanzitutto presentato l'acquisizione come un prezioso strumento a disposizione nella lotta a malware e allo spamming di massa.

C'è, tuttavia, un secondo intento per BigG nelle operazioni di acquisizione dell'azienda fornitrice dei caratteri tremolanti e scarabocchiati: i CAPTCHA aiutano la macchina a decifrare stralci di testo difficili da identificare, in particolare se si stanno effettuando attività di digitalizzazione di testi analogici. E qui le orecchie di Google si sono ben drizzate: "Le parole in molti dei CAPTCHA - hanno continuato gli autori del post - provengono da archivi scansionati di giornali e vecchi libri. I computer incontrano difficoltà nel leggerle perché sia l'inchiostro che la carta si sono rovinati nel tempo, ma digitandole attraverso i CAPTCHA le persone riescono ad insegnare alle macchine a leggere il testo scansionato".
Con reCAPTCHA, dunque, Mountain View sembra aver preso i classici due piccioni con una sola fava: difendere la rete dagli spammer e tentare di risolvere i problemi tecnici riscontrati con la Optical Character Recognition (OCR) nelle attività di digitalizzazione dei testi danneggiati o con font sconosciuti. Luis Von Ahn ora rimarrà alla Carnegie Mellon, nonostante il nuovo impiego con la Grande G. "Continuerò a seguire gli studenti - ha dichiarato - ovviamente su progetti non legati a Google".

Mauro Vecchio
CONDIVIDI: