Il captcha darà nuova linfa ad Internet Archive

I sistemini di autenticazione anti-bot possono contribuire a realizzare una biblioteca digitale del sapere umano. Gli utenti non devono far altro che usarli, difendendosi da spam e bot

Roma - Ogni giorno circa 60 milioni di captcha vengono risolti su Internet e ciascuno richiede 10 secondi di media per l'interpretazione da parte dell'utente, il che si traduce nel complesso in 150mila ore di lavoro al giorno: un conto pesante, pagato perché i captcha consentono a siti e servizi web di sapere che l'utente che vuole accedere o autenticarsi è un umano e non è un bot automatico. Ricercatori della Carnegie Mellon University hanno pensato a come trasformare questo lavorìo globale in un formidabile strumento di crescita culturale.

Un captcha, come noto, è essenzialmente una stringa di testo distorto che per un bot informatico è di difficile interpretazione. Al contrario, gli esseri umani sono molto abili in questo tipo di interpretazione: da qui la possibilità di usarli per tenere alla larga dai servizi online i bot, responsabili di registrazioni fasulle e spam.

Ora i tecnici della Carnegie Mellon vogliono andare oltre con il progetto reCAPTCHA in cui un doppio captcha viene proposto agli utenti, il cui contributo può curiosamente contribuire ad alimentare l'Internet Archive.
Quando un utente incontra un sistema di identificazione reCAPTCHA, non deve fare altro che interpretare e trascrivere le due parole che lo compongono: se nel primo caso si tratta di un insieme di caratteri perfettamente noto al computer che lo presenta all'utente, e che quindi sarà sfruttato per convalidare l'accesso da parte di un umano ai suoi servizi, nel secondo caso l'immagine proposta riguarda un testo sconosciuto.

Il sistema dei ricercatori punta a raccogliere le "interpretazioni umane" del secondo vocabolo, formando un ventaglio di possibili soluzioni associate all'immagine presentata da reCAPTCHA: quando un buon numero di utenti avrà fornito una risposta coerente, a quell'immagine verrà definitivamente associata una interpretazione. In questo modo potranno essere "interpretate" le scansioni dei circa 12mila volumi che ogni mese Internet Archive digitalizza, che potranno così essere conservate in forma testuale: una soluzione molto meno ingombrante delle immagini a cui il progetto si è dovuto limitare fino ad oggi.

Il gruppo di scienziati capitanato dal professor Luis von Ahn spera di riuscire a rimpiazzare il più rapidamente possibile il maggior numero di captcha con un esemplare della nuova generazione: in questo modo sarà possibile trasformare il lavorìo degli umani sul captcha in un contributo costante allo sviluppo del progetto. Al momento sono circa 150 i siti che vi hanno aderito, e il lavoro degli utenti ha già contribuito ad identificare più di 8mila vocaboli.

Per rendere ancora più appetibile e utile questa nuova tecnologia è stata sviluppata anche una variante denominata reCAPTCHA Mailhide. Di cosa si tratta lo spiega Ben Maurer, studente presso la Carnegie Mellon: oggi molti siti mostrano gli indirizzi email nel formato "nome (at) dominio (dot) com", per evitare che gli spammer li rastrellino, per bersagliarli con immondizia digitale. Per ottenere questo scopo, molto spesso vengono impiegate tecniche più o meno raffinate, che possono comprendere tabelle o anche codice javascript.

I malintenzionati si fanno tuttavia sempre più attenti ed oggi sono in grado di scavalcare molte di queste protezioni. reCAPTCHA Mailhide rappresenta una risposta semplice e gratuita al problema: sfruttando un captcha dedicato è possibile proteggere la propria email dai bot. Chi fosse interessato a scrivere una lettera al proprietario della casella, non dovrà fare altro che risolvere il captcha, anzi il reCAPTCHA, così da contribuire al lavoro collettivo.

"Si tratta di un esempio dell'importanza di avere collezioni aperte di pubblico dominio" ha detto Brewster Kahle, direttore del progetto Internet Archive: "Le persone lavorano insieme per costruire un prodotto libero e di buona qualità". L'intero progetto reCAPTCHA si basa sulle donazioni di Intel, SUSE e Novell per la realizzazione e la messa in rete dei server.

I captcha divengono dunque strumenti utili sia per combattere la spam che per assicurare la crescita di progetti utili e senza scopo di lucro. Eppure molto spesso sono visti come una seccatura dagli utenti: non mancano le polemiche sulle discriminazioni che questa tecnologia impone ad utenti con deficit visivi o dislessici, e le iniziative per promuovere soluzioni alternative.

Luca Annunziata
18 Commenti alla Notizia Il captcha darà nuova linfa ad Internet Archive
Ordina
  • Più delle volte devo riscriverlo ... altro che 10 secondi... una rottura dei ciglioni indefinibile e poi spesso manco riesco a leggerli ... e sse proprio la vogliamo dire tutta, non sono io UTENTE che devo difendermi dai bot ... mi pare!
    non+autenticato

  • - Scritto da:
    > Più delle volte devo riscriverlo ... altro che 10
    > secondi... una rottura dei ciglioni indefinibile
    > e poi spesso manco riesco a leggerli ... e sse
    > proprio la vogliamo dire tutta, non sono io
    > UTENTE che devo difendermi dai bot ... mi
    > pare

    No infatti probabilmente tu utente hai il computer infestato dimmerda e non te ne accorgi neanche... Rotola dal ridereRotola dal ridere
    non+autenticato
  • Che riescono a "riciclare" questo lavoro noioso in forma produttiva.
    Speriamo che almeno tutto quanto raccolto rimanga liberamente fruibile dagli utenti.
  • ma questi continuamente fanno ricerche che noi ci sognamo il sistema che hanno inventato è bellissimo io parteciperei volentieri
    non+autenticato
  • Sono anni che leggo e posto su P.I. ma da qualche mese e' stato introdotto questo sistema.

    A mio avviso da solo fastidio, perche' se e' pur vero che certi siti sono bombardati dallo spam, per evitare cose di questo genere basta bloccare il tempo massimo/minimo di post entro un certo tot...

    Inoltre spesso se si hanno le immagini disabilitate occorre rompersi i maroni e abilitarle, comprese cookies e javascript di cui volentieri farei a meno, visto che compromettono la privacy.

    Purtroppo, benche' la legge lo preveda, P.I. non da modo di postare senza cookies e javascript attivi, cosa questa che trovo alquanto discutibile (forse e' pure illegale ?...chissa'...? )

    941333 e' il cappuccha' di stasera.-...
    non+autenticato

  • - Scritto da:
    > Sono anni che leggo e posto su P.I. ma da qualche
    > mese e' stato introdotto questo
    > sistema.
    >
    > A mio avviso da solo fastidio, perche' se e' pur
    > vero che certi siti sono bombardati dallo spam,
    > per evitare cose di questo genere basta bloccare
    > il tempo massimo/minimo di post entro un certo
    > tot...

    Ma per favore... e come li riconosci gli zombie che ormai vengono quotidianamente utilizzati per questo tipo di attivita'?

    > Inoltre spesso se si hanno le immagini
    > disabilitate occorre rompersi i maroni e
    > abilitarle, comprese cookies e javascript di cui
    > volentieri farei a meno, visto che compromettono
    > la
    > privacy

    Che cazzo c'entrano le immagini con cookies e javascript? Rotola dal ridere

    > Purtroppo, benche' la legge lo preveda

    ROTFL... ma quale legge sarebbe quella che impone di poter postare su un forum senza cookie e javascript eh? Ma che cazzate vai farneticando? Rotola dal ridereRotola dal ridere

    >, P.I. non
    > da modo di postare senza cookies e javascript
    > attivi, cosa questa che trovo alquanto
    > discutibile (forse e' pure illegale
    > ?...chissa'...?

    Si' certo, soprattutto illegale... Rotola dal ridereRotola dal ridere
    > )
    >
    > 941333 e' il cappuccha' di stasera.-...

    Bravo, sai leggere... Rotola dal ridere
    non+autenticato
  • > ROTFL... ma quale legge sarebbe quella che impone
    > di poter postare su un forum senza cookie e
    > javascript eh? Ma che cazzate vai farneticando?
    > Rotola dal ridereRotola dal ridere

    Vedi, anche se sei un cafone ignorante, sicuramente sai che il javascript puo' essere utilizzato per fini poco puliti e per tracciare dati personali, come pure saprai che i cookies servono a tracciare cosa ha fatto un determinato utente.

    I dettagli tecnici li trovi usando google, non ti voglio tediare, comunque sia in moltissimi forum e' possibile postare avendo JS e Cookies disabilitati, qui su PI era possibile farlo tempo fa, ma ora hanno cambiato le cose...

    Forse anche per questo i commenti si sono ridotti in modo drastico (immagino tu te ne sia accorto, se giri abitualmente su PI).
    non+autenticato

  • - Scritto da:
    > > ROTFL... ma quale legge sarebbe quella che
    > impone
    > > di poter postare su un forum senza cookie e
    > > javascript eh? Ma che cazzate vai farneticando?
    > > Rotola dal ridereRotola dal ridere
    >
    > Vedi, anche se sei un cafone ignorante,
    > sicuramente sai che il javascript puo' essere
    > utilizzato per fini poco puliti e per tracciare
    > dati personali, come pure saprai che i cookies
    > servono a tracciare cosa ha fatto un determinato
    > utente

    Si' ma (A) non c'entra nulla coi captcha, e tu li hai tirati fuori a sproposito (B) puoi anche disabilitare javascript e rifiutare i cookie (C) non esiste alcuna legge che impone che i forum siano utilizzabili anche senza javascript e cookie (D) i cookie non servono solo per "tracciare" gli utenti, ma possono servire ad esempio per i forum che richiedono login o che memorizzino le impostazioni locali (E) ignorante sarai tu.
    non+autenticato

  • - Scritto da:
    >
    > - Scritto da:
    > > > ROTFL... ma quale legge sarebbe quella che
    > > impone
    > > > di poter postare su un forum senza cookie e
    > > > javascript eh? Ma che cazzate vai
    > farneticando?
    > > > Rotola dal ridereRotola dal ridere
    > >
    > > Vedi, anche se sei un cafone ignorante,
    > > sicuramente sai che il javascript puo' essere
    > > utilizzato per fini poco puliti e per tracciare
    > > dati personali, come pure saprai che i cookies
    > > servono a tracciare cosa ha fatto un determinato
    > > utente
    >
    > Si' ma (A) non c'entra nulla coi captcha, e tu li
    > hai tirati fuori a sproposito (B) puoi anche
    > disabilitare javascript e rifiutare i cookie (C)
    > non esiste alcuna legge che impone che i forum
    > siano utilizzabili anche senza javascript e
    > cookie (D) i cookie non servono solo per
    > "tracciare" gli utenti, ma possono servire ad
    > esempio per i forum che richiedono login o che
    > memorizzino le impostazioni locali (E) ignorante
    > sarai
    > tu.

    io aggiungierei:
    F)google che tu usi js/cookie o meno ti traccia lo stesso (mica uso solo sistemi così barbari Occhiolino)
    non+autenticato
CONTINUA A LEGGERE I COMMENTI
Successiva
(pagina 1/2 - 6 discussioni)