Giovanni Arata

Alla ricerca del Web invisibile

La Rete non è fatta solo da quello che già oggi Google e concorrenti sono in grado di offrire. Ci sono oceani di informazioni nascoste, che presto potrebbero essere svelate

Roma - C'è un mare di informazioni nascoste dentro il mare del Web. Si tratta di informazioni nascoste in profondità, là dove neppure i motori di ricerca possono trovarle, e che gli esperti chiamano Web invisibile (Deep Web). Adesso, Google e gli altri grandi player del settore stanno attrezzando progetti importanti per raggiungere tali abissi: alla ricerca della supremazia nel search che verrà.

Dietro l'espressione Web invisibile, spiega il New York Times, ci sono cose molto diverse tra loro come cataloghi commerciali, orari di mezzi pubblici, risultati di indagini scientifiche. I contenuti del web invisibile si trovano in spazi particolari della rete - pagine ad accesso ristretto, repository audiovideo, database strutturati - e per questo non sono raggiungibili dai normali spider dei motori di ricerca, che "navigano" soltanto tra gli hyperlink che collegano le singole pagine.

"La porzione di web esplorabile dagli spider è solo la punta dell'iceberg", ha detto al NYT Anand Rajaraman, cofondatore di una delle aziende che per prime si sono lanciate nella caccia al web invisibile, Kosmix. "La maggior parte dei motori di ricerca ti consentono al massimo di trovare un attaccapanni in un armadio. Ma quello che vogliamo consentire ai nostri utenti è esplorare quell'armadio".
Per raggiungere tale obiettivo, i motori di nuova generazione dovrebbero acquisire la capacità di comprendere i termini di ricerca degli utenti e svolgere per conto di questi ultimi delle query all'interno dei database. Se per esempio un navigatore digita la parola "Genova", il motore di ricerca dovrebbe mostrarsi in grado di riconoscere tutti i database che (plausibilmente) contengono informazioni sulla città (ad esempio guide di viaggio, o atlanti storici) nonché sapere come formulare delle query automatiche al loro interno.

E se dal punto di vista concettuale il problema appare relativamente lineare, in termini pratici le cose sono molto complesse. Ci sono, spiegano gli esperti, i problemi legati alla disambiguazione delle keyword, quelli dovuti alla varietà di architetture impiegate nella strutturazione dei database, quelli collegati all'impossibilità di istituire corrispondenze certe e permanenti nel caso di database con dati debolmente accoppiati (in termini tecnici "loosely coupled").

Le difficoltà tuttavia non sembrano scoraggiare i player del settore, ingolosite dalla prospettiva di poter offrire ai navigatori soluzioni di ricerca più esaustive, per certi versi simili a quelle promesse dal web semantico. La già citata Kosmix, ad esempio, ha sviluppato un software in grado di accoppiare ogni istanza di search con i contenuti dei database che più plausibilmente trattano l'argomento, per poi offrire una panoramica dei risultati insieme con l'indicazione delle fonti cui sono collegati.

Diversa la logica di DeepPeep, un progetto sperimentale sviluppato dal professor Juliana Freire presso l'Università dello Utah. In questo caso, il tentativo è quello di indicizzare preventivamente tutti i database presenti nel web pubblico, in modo da indirizzare le successive attività di ricerca degli utenti. "Il modo naif per raggiungere il risultato sarebbe operare una query per ciascuna delle parole presenti sul dizionario", spiega al NYT. Per converso, DeepPeep inizia sottoponendo al sistema un numero circoscritto di query-campione, "che vengono usate poi per ricostruire l'intera architettura dei database e orientare le ricerche".

Ma anche i grandi attori del search, ovviamente, si stanno muovendo. Nello scorso dicembre, Yahoo ha lanciato lo sviluppo una versione sviluppata inhouse di SearchMonkey, il tool che consente di automatizzare l'estrazione di informazioni strutturate da archivi anche se di grandi dimensioni. Il progetto di Google per il web invisibile, coordinato dall'ex docente dell'Università di Washington Alon Halevy, è concettualmente invece molto simile a quello di DeepPeep: ognuno dei database pubblici presenti in rete viene analizzato da uno spider, che ne ricostruisce il contenuto presunto. Ma (almeno per il momento) i risultati raggiunti non hanno soddisfatto i responsabili dell'azienda di Mountain View, che nel corso di una recente conferenza hanno detto esplicitamente "non stiamo facendo un buon lavoro nell'offrire i contenuti strutturati ai nostri utenti".

Peraltro nel caso di Google le difficoltà intrinseche allo sviluppo di soluzioni per il deep web si accoppiano a quelle collegate alla presentazione degli stessi. Per rendere adeguatamente conto dei risultati derivanti dal browsing di database eterogenei, infatti, i responsabili della Grande G dovrebbero rinunciare (almeno in parte) alla leggendaria semplicità della loro interfaccia, restituendo pagine di record con diciture e icone più differenziate.

Ancora non è dato sapere chi, tra tutti gli attori in campo, sarà in grado di fornire una soluzione definitiva al problema del web invisibile. Su una cosa, però, gli addetti ai lavori concordano: i motori di nuova generazione hanno le potenzialità per modificare radicalmente le abitudini di ricerca, ed il modo stesso con il quale viviamo in rete. Ragion per cui, se vuole mantenere l'attuale strapotere in materia di search, Google avrà bisogno di attrezzarsi in fretta per la sfida.

Giovanni Arata
2 Commenti alla Notizia Alla ricerca del Web invisibile
Ordina
  • A prima vista, il problema potrebbe essere risolto facenddo in modo che ogni database renda accessibile i propri indici;
    resterebbe poi da vedere se il motore di ricerca 'incorpori' tali indici come sottoindici per il sito / pagina associata, o semplicemente, e più intelligentemente, fare riferimento all'indice del database ogni volta che ve ne sia bisogno.

    I problemi sono, rispettivamente: nel primo caso, il motore di ricerca vedrebbe crescere mostruosamente i propri indici, e rischierebbe di mantenere in linea informazioni obsolete, mentre nel secondo, rischierebbe di crescere enormemente il traffico dovuto alla mediazione fatta del motore tra le richieste degli utenti e gli accessi ai database indicizzati.

    La soluzione che ritengo invece più interessante e perseguibile è quella semantica, e mi spiego:
    invece che indicizzare le singole parole, sarebbe interessante indicizzare la loro semantica.
    Se ricerco la parola 'Genova', dovrei prima associarla al concetto di 'città', e quindi ricercare tutti i database che offrono informazioni sul concetto di 'città'; a quel punto potrebbe partire la ricerca puntuale su ogni database per vedere se effettivamente contengano informazioni sulla specifica città 'Genova'.

    Ovviamente il concetto potrebbe essere esteso a tutte le varietà semantiche associabili ad un termine, e quindi estendere la ricerca a tutte queste.