Roma - Ogni giorno circa 60 milioni di
captcha vengono risolti su Internet e ciascuno richiede 10 secondi di media per l'interpretazione da parte dell'utente, il che si traduce nel complesso in
150mila ore di lavoro al giorno: un conto pesante, pagato perché i captcha consentono a siti e servizi web di sapere che l'utente che vuole accedere o autenticarsi è un umano e non è un bot automatico. Ricercatori della
Carnegie Mellon University hanno pensato a come trasformare questo lavorìo globale in un formidabile strumento di crescita culturale.
Un
captcha, come noto, è essenzialmente una
stringa di testo distorto che per un bot informatico è di
difficile interpretazione. Al contrario, gli esseri umani sono
molto abili in questo tipo di interpretazione: da qui la possibilità di usarli per tenere alla larga dai servizi online i
bot, responsabili di registrazioni fasulle e
spam.
Ora i tecnici della Carnegie Mellon vogliono andare oltre con il progetto
reCAPTCHA in cui un
doppio captcha viene proposto agli utenti, il cui contributo può curiosamente contribuire ad alimentare l'
Internet Archive.
Quando un utente incontra un sistema di identificazione reCAPTCHA, non deve fare altro che interpretare e
trascrivere le due parole che lo compongono: se nel primo caso si tratta di un insieme di caratteri perfettamente noto al computer che lo presenta all'utente, e che quindi sarà sfruttato per convalidare l'accesso da parte di un umano ai suoi servizi, nel secondo caso l'immagine proposta riguarda un
testo sconosciuto.
Il sistema dei ricercatori punta a raccogliere le "interpretazioni umane" del secondo vocabolo, formando un ventaglio di possibili soluzioni associate all'immagine presentata da reCAPTCHA: quando un buon numero di utenti avrà fornito una risposta coerente, a quell'immagine verrà definitivamente
associata una interpretazione. In questo modo potranno essere "interpretate" le scansioni dei circa 12mila volumi che ogni mese Internet Archive digitalizza, che potranno così essere conservate in forma testuale: una soluzione molto meno ingombrante delle immagini a cui il progetto si è dovuto limitare fino ad oggi.
Il gruppo di scienziati capitanato dal professor
Luis von Ahn spera di riuscire a rimpiazzare il più rapidamente possibile il maggior numero di captcha con un esemplare della nuova generazione: in questo modo sarà possibile trasformare il lavorìo degli umani sul captcha in un contributo costante allo sviluppo del progetto. Al momento sono circa 150 i siti che vi hanno aderito, e il lavoro degli utenti ha già contribuito ad identificare più di
8mila vocaboli.
Per rendere ancora più appetibile e utile questa nuova tecnologia è stata sviluppata anche una variante denominata
reCAPTCHA Mailhide. Di cosa si tratta lo spiega
Ben Maurer, studente presso la Carnegie Mellon: oggi molti siti mostrano gli indirizzi email nel formato "nome (at) dominio (dot) com",
per evitare che gli spammer li rastrellino, per bersagliarli con immondizia digitale. Per ottenere questo scopo, molto spesso vengono impiegate tecniche più o meno raffinate, che possono comprendere tabelle o anche codice
javascript.
I malintenzionati si fanno tuttavia sempre più attenti ed oggi sono in grado di scavalcare molte di queste protezioni. reCAPTCHA Mailhide rappresenta una
risposta semplice e gratuita al problema: sfruttando
un captcha dedicato è possibile proteggere la propria email dai bot. Chi fosse interessato a scrivere una lettera al proprietario della casella, non dovrà fare altro che risolvere il captcha, anzi il reCAPTCHA, così da contribuire al lavoro collettivo.
"Si tratta di un esempio dell'importanza di avere collezioni aperte di pubblico dominio" ha detto
Brewster Kahle, direttore del progetto Internet Archive: "
Le persone lavorano insieme per costruire un prodotto libero e di buona qualità". L'intero progetto reCAPTCHA si basa sulle donazioni di Intel, SUSE e Novell per la realizzazione e la messa in rete dei server.
I captcha divengono dunque
strumenti utili sia per combattere la spam che per assicurare la crescita di progetti utili e senza scopo di lucro. Eppure molto spesso sono visti come una seccatura dagli utenti: non mancano le
polemiche sulle
discriminazioni che questa tecnologia impone ad
utenti con deficit visivi o dislessici, e le
iniziative per promuovere
soluzioni alternative.
Luca Annunziata