Alla ricerca del Web invisibile

C’è un mare di informazioni nascoste dentro il mare del Web. Si tratta di informazioni nascoste in profondità, là dove neppure i motori di ricerca possono trovarle, e che gli esperti chiamano Web invisibile (Deep Web). Adesso, Google e gli altri grandi player del settore stanno attrezzando progetti importanti per raggiungere tali abissi: alla ricerca della supremazia nel search che verrà.

Dietro l’espressione Web invisibile , spiega il New York Times , ci sono cose molto diverse tra loro come cataloghi commerciali, orari di mezzi pubblici, risultati di indagini scientifiche. I contenuti del web invisibile si trovano in spazi particolari della rete – pagine ad accesso ristretto, repository audiovideo, database strutturati – e per questo non sono raggiungibili dai normali spider dei motori di ricerca, che “navigano” soltanto tra gli hyperlink che collegano le singole pagine.

“La porzione di web esplorabile dagli spider è solo la punta dell’iceberg”, ha detto al NYT Anand Rajaraman, cofondatore di una delle aziende che per prime si sono lanciate nella caccia al web invisibile, Kosmix . “La maggior parte dei motori di ricerca ti consentono al massimo di trovare un attaccapanni in un armadio. Ma quello che vogliamo consentire ai nostri utenti è esplorare quell’armadio”.

Per raggiungere tale obiettivo, i motori di nuova generazione dovrebbero acquisire la capacità di comprendere i termini di ricerca degli utenti e svolgere per conto di questi ultimi delle query all’interno dei database. Se per esempio un navigatore digita la parola “Genova”, il motore di ricerca dovrebbe mostrarsi in grado di riconoscere tutti i database che (plausibilmente) contengono informazioni sulla città (ad esempio guide di viaggio, o atlanti storici) nonché sapere come formulare delle query automatiche al loro interno.

E se dal punto di vista concettuale il problema appare relativamente lineare, in termini pratici le cose sono molto complesse. Ci sono, spiegano gli esperti , i problemi legati alla disambiguazione delle keyword, quelli dovuti alla varietà di architetture impiegate nella strutturazione dei database, quelli collegati all’impossibilità di istituire corrispondenze certe e permanenti nel caso di database con dati debolmente accoppiati (in termini tecnici “loosely coupled”).

Le difficoltà tuttavia non sembrano scoraggiare i player del settore, ingolosite dalla prospettiva di poter offrire ai navigatori soluzioni di ricerca più esaustive, per certi versi simili a quelle promesse dal web semantico . La già citata Kosmix, ad esempio, ha sviluppato un software in grado di accoppiare ogni istanza di search con i contenuti dei database che più plausibilmente trattano l’argomento, per poi offrire una panoramica dei risultati insieme con l’indicazione delle fonti cui sono collegati.

Diversa la logica di DeepPeep , un progetto sperimentale sviluppato dal professor Juliana Freire presso l’ Università dello Utah . In questo caso, il tentativo è quello di indicizzare preventivamente tutti i database presenti nel web pubblico, in modo da indirizzare le successive attività di ricerca degli utenti. “Il modo naif per raggiungere il risultato sarebbe operare una query per ciascuna delle parole presenti sul dizionario”, spiega al NYT. Per converso, DeepPeep inizia sottoponendo al sistema un numero circoscritto di query -campione, “che vengono usate poi per ricostruire l’intera architettura dei database e orientare le ricerche”.

Ma anche i grandi attori del search, ovviamente, si stanno muovendo. Nello scorso dicembre, Yahoo ha lanciato lo sviluppo una versione sviluppata inhouse di SearchMonkey , il tool che consente di automatizzare l’estrazione di informazioni strutturate da archivi anche se di grandi dimensioni. Il progetto di Google per il web invisibile, coordinato dall’ex docente dell’ Università di Washington Alon Halevy, è concettualmente invece molto simile a quello di DeepPeep: ognuno dei database pubblici presenti in rete viene analizzato da uno spider, che ne ricostruisce il contenuto presunto. Ma (almeno per il momento) i risultati raggiunti non hanno soddisfatto i responsabili dell’azienda di Mountain View, che nel corso di una recente conferenza hanno detto esplicitamente “non stiamo facendo un buon lavoro nell’offrire i contenuti strutturati ai nostri utenti”.

Peraltro nel caso di Google le difficoltà intrinseche allo sviluppo di soluzioni per il deep web si accoppiano a quelle collegate alla presentazione degli stessi. Per rendere adeguatamente conto dei risultati derivanti dal browsing di database eterogenei, infatti, i responsabili della Grande G dovrebbero rinunciare (almeno in parte) alla leggendaria semplicità della loro interfaccia, restituendo pagine di record con diciture e icone più differenziate.

Ancora non è dato sapere chi, tra tutti gli attori in campo, sarà in grado di fornire una soluzione definitiva al problema del web invisibile. Su una cosa, però, gli addetti ai lavori concordano: i motori di nuova generazione hanno le potenzialità per modificare radicalmente le abitudini di ricerca, ed il modo stesso con il quale viviamo in rete. Ragion per cui, se vuole mantenere l’attuale strapotere in materia di search , Google avrà bisogno di attrezzarsi in fretta per la sfida.

Giovanni Arata

Giovanni Arata

Pubblicato il 24 feb 2009

Link copiato negli appunti

Ti potrebbe interessare

Giovanni Arata

Pubblicato il
24 feb 2009

Link copiato negli appunti