Gaia Bottà
mercoledì 3 settembre 2008

Cuil e lo spider assassino

Il motore di ricerca dall'indice sconfinato è un ammazzasiti. Sfuggire al bot e all'indicizzazione, per molti, è l'unico modo per sopravvivere. Da Cuil temperano le preoccupazioni: stiamo ancora sperimentando

Roma - Lo spider di Cuil batte la rete da mesi: raccoglie informazioni sulle pagine web, intesse lo sconfinato indice del motore di ricerca scaturito da tre ex dipendenti di Google. Dovrebbe garantire alle pagine indicizzate maggiore visibilità, in realtà sta dissanguando i siti che percorre.

A lamentare l'invasività di Twiceler, il bot di Cuil, è un lettore di Techcrunch: nel tentativo di indicizzare una pagina, lo spider di Cuil subisserebbe il sito con una mole di traffico che non tutti sono in grado di sobbarcarsi. "Così tanto traffico da buttar giù il sito", assicura il lettore, costretto a limitare il traffico a 2 visite al secondo per garantire al pubblico di accedervi.

ragnoMa la segnalazione del lettore non è un caso isolato: lamentele e proteste affollano la rete dai mesi scorsi. Quando Cuil era Cuill e si configurava solo come un progetto, già c'era chi avvertiva l'aggressiva presenza di un nuovo bot: già lo scorso anno Twiceler, impegnato a costruire quello che i fondatori di Cuil definiscono l'indice più vasto del mondo, intaccava le performance dei siti, vampirizzava la banda, causava dei crash. C'era chi riscontrava un numero imponente di visite, quasi si trattasse di un attacco DoS, c'era chi lamentava il ritmo serrato con cui Twiceler scandagliava le pagine, anche centinaia contemporaneamente.Erano numerosi i webmaster che si scambiavano consigli per arginare il problema e addomesticare lo spider vampiro. Le ordinarie contromisure sembravano non bastare: Twiceler sembrava ignorare le informazioni e le restrizioni contenute nel file robots.txt e andava tenuto lontano bloccando tutti gli indirizzi IP ad esso corrispondenti. Migliaia i siti che avevano eretto palizzate per allontanare il bot, a prezzo di non comparire nell'indice di Cuil.

Gli uomini del motore di ricerca si erano del resto mostrati disponibili: assicuravano che Twiceler non avrebbe battuto le pagine di coloro che non lo desiderassero, spiegavano che Twiceler si trovava ancora in una fase sperimentale. Ma le proteste, a mesi dalle prime ondate di panico, non si sono placate: c'è chi lamenta come Twiceler cerchi di raggiungere URL inesistenti nel tentativo di ingrassare il proprio indice con contenuti non accessibili attraverso i link.

Il traffico che poteva vantare Cuil dopo i primi giorni dal suo esordio si è assottigliato, le recensioni dei media mainstream che configuravano il motore come un contendente di Google hanno ceduto il posto allo spirito critico dei netizen. Pare sia tempo di mettere mano ai 33 milioni di dollari di capitale e di iniziare la rincorsa al vantaggio dei search engine che possono contare su lustri di affinamento.

Gaia Bottà

(fonte immagine)
9 Commenti alla Notizia Cuil e lo spider assassino
Ordina
  • Cerca indirizzi inesistenti da anni e non linkati da nessuno e non rispetta il robot.txt. Non inserisce nel suo db le pagine escluse da robot.txt, ma le visita lo stesso, il che è contro la filosofia di robot.txt che serve ad impedire l'accesso a pagine che potrebbero avere comportamenti scorretti se aperte con richieste automatiche invece che da una navigazione lineare di un essere umano.
    Ma ovviamente google se ne frega.
    non+autenticato
  • - Scritto da: CurloCurti
    > Cerca indirizzi inesistenti da anni e non linkati
    > da nessuno e non rispetta il robot.txt. Non
    > inserisce nel suo db le pagine escluse da
    > robot.txt, ma le visita lo stesso, il che è
    > contro la filosofia di robot.txt che serve ad
    > impedire l'accesso a pagine che potrebbero avere
    > comportamenti scorretti se aperte con richieste
    > automatiche invece che da una navigazione lineare
    > di un essere
    > umano.
    > Ma ovviamente google se ne frega.

    chiacchiere tante, fatti zero.
    non+autenticato
  • - Scritto da: CurloCurti
    > Cerca indirizzi inesistenti da anni e non linkati
    > da nessuno e non rispetta il robot.txt. Non
    > inserisce nel suo db le pagine escluse da
    > robot.txt, ma le visita lo stesso, il che è
    > contro la filosofia di robot.txt che serve ad
    > impedire l'accesso a pagine che potrebbero avere
    > comportamenti scorretti se aperte con richieste
    > automatiche invece che da una navigazione lineare
    > di un essere
    > umano.
    > Ma ovviamente google se ne frega.

    Perchè devi dire minchiate?
    non+autenticato
  • E' bello... ma vengono dei risultati del cavolo a volte.

    Ma poi... il nome.. si pronuncia cool ma si scrive cuil, poco intuitivo per gli americani che sono gia' negati negli spelling delle parole.

    Vabbe, Fara' la fortuna cool.com
  • Eccoli qua piccoli scocciatori crescono, non bastava il manbassa delle nostre informazioni su google, ma ci mancava pure il robot della cuil.
    C'e' poco da fare i piccoli utenti di siti sono carne da macello per queste societa'
    se ne fregano di blocchi ip, restrizioni, per i soldi questo ed altro.
    Mamma mia rimpiango l'informatica di venti anni fa!
    non+autenticato
  • Magari lo ha fatto anche google tanti anni fa. Lo dico perchè questa storia mi ricorda qualcosa di simile proprio nel periodo in cui è esordito google. Bisognerebbe fare una ricerca nei newsgroup per averne conferma.
    non+autenticato
  • Beh di certo, non è che il motore di ricerca usa una qualche formula magica per trovare le informazioni che gli richiediamo. Le possiede già memorizzate da qualche parte e quindi in un qualche tempo deve essersele procurate.
    Dal momento poi che la battaglia tra i vari motori consiste anche nel chi offre il maggior numero di informazioni (possibilmente dettagliate) è ovvio che i giri su uno stesso sito sono necessari.
  • - Scritto da: Prima di pubblicare rutta
    > Magari lo ha fatto anche google tanti anni fa. Lo
    > dico perchè questa storia mi ricorda qualcosa di
    > simile proprio nel periodo in cui è esordito
    > google. Bisognerebbe fare una ricerca nei
    > newsgroup per averne
    > conferma.

    io c'ero all'epoca e ti garantisco che Google ha sempre implementato ottime politiche per la gestione degli spider
    non+autenticato
  • bhaahahaha scusa ma mi ha fatto morire il titolo del tuo post x°D
    non+autenticato
 

La soluzione ideale per IBM Performance: Decisioni più intelligenti, migliori risultati.

Posizionamento nei motori di ricerca

Posizionamento nei motori di ricerca

Posizionamento nei motori di ricerca è un libro di Francesco Gabriele Ricci, [...]