Alfonso Maruccia

Dove sta andando il search

I ricercatori scavano nei log anonimi e setacciano centinaia di milioni di pagine web, estraendone correlazioni semantiche e modelli teorici. Utili a predire quando un utente può avere bisogno di aiuto

Roma - Tra i settori hi-tech più in fermento va certamente annoverata la ricerca sul web, un gesto fondamentale nel moderno stile di vita interconnesso che tende a un perfezionamento praticamente infinito di metodi e tecnologie, algoritmi e fondamenti teorici. Uno dei filoni più seguiti degli ultimi tempi è quello della semantica, e della correlazione dei termini per estrapolare significati in grado di fornire risposte coerenti alle domande poste dagli utenti con un linguaggio quanto più naturale è possibile.

Al significato delle parole e alla relazione esistente tra un gruppo ridotto di termini sta ad esempio dedicando energie e fondi l'Università di Washington, che con l'aiuto di Google ha preso ad analizzare centinaia di migliaia di pagine web per costruire un sistema in grado di imparare da solo, o per meglio dire correlare i termini e proporre agli utenti i risultati di questa correlazione in maniera del tutto automatica.

Basata su un progetto preesistente dagli obiettivi analoghi chiamato TextRunner, la ricerca americana fa avanzare in maniera fattoriale sia le fondamenta tecnologiche già attive che il numero di informazioni che è in grado di analizzare: TextRunner ora è in grado di "scoprire e apprendere milioni di relazioni, non semplicemente una alla volta" dice il responsabile del settore ricerca di Google Peter Norvig. "Non c'è nessun essere umano nel circuito" dice Norvig, per cui il sistema fa tutto da solo.
La presentazione di risultati sempre più vicini al contesto della ricerca piuttosto che a una semplice relazione quantitativa tra due o più termini specificati è da tempo un "hot topic" del web search, prova ne siano il recentemente lanciato Wolfram Alpha (che si definisce "primo engine di conoscenza computazionale del web), gli esperimenti di Google con Squared o la tecnologia di Powerset acquisita da Microsoft.

TextRunner funziona più o meno sugli stessi principi del suddetto Powerset, ma a fare la differenza sono ovviamente le dimensioni: i 500 milioni di pagine scandagliate dagli algoritmi sono stati donati da Google, che con tutta l'evidenza del caso spera di capitalizzare i risultati per adottarli sul suo popolare motore di ricerca. L'utilità pratica di uno studio del genere? Tra i tanti esempi concreti che è possibile elencare, TextRunner è in grado di rispondere a richieste come "what kills bacteria?" indicando quegli agenti in grado di uccidere i batteri (il cloro, la luce ultravioletta, il calore eccetera), o anche di riportare i principali indiziati dell'omicidio di JFK.

Non di sola semantica (o presunta tale) però vive la ricerca sul search online, e se è vero che come credono utenti e aziende Internet diventerà un vero caois a causa della prossima rivoluzione dei domini di primo livello voluta da ICANN, gli studi per fornire un aiuto oggettivamente utile a quella vera e propria scienza sperimentale che è la ricerca online passano anche dall'analizzare i log delle richieste degli utenti per verificare dove questi ultimi finiscono impantanati nel loro percorso.

Sfruttando i log anonimi forniti dal meta-motore dogpile, gli studiosi hanno tra le altre cose scoperto che si, la ricerca online è un affare complicato che spesso necessita di molti passaggi prima di portare (laddove succede) al risultato sperato, ma anche che ben il 63 per cento degli utenti si ferma alla prima richiesta, segno che l'obiettivo viene raggiunto al primo colpo su tutti i principali motori di ricerca.

I ricercatori hanno estrapolato sei diverse categorie di ricerche, corrispondenti ai diversi stati di avanzamento delle richieste degli utenti: vale a dire le nuove ricerche, la modifica del tipo di contenuti cercati (da testuale a video, ad esempio), la riformulazioni dei termini della ricerca, la specializzazione o la generalizzazione di una ricerca precedente e l'utilizzo del sistema di aiuto interno di dogpile, capace di fornire un set di nuove ricerche potenziali estrapolate da quella dell'utente.

Partendo da queste sei categorie è stata poi estrapolata quella che viene definita una matrice di probabilità del passaggio di stato, che dovrebbe servire a ricavare la probabilità che un utente presente in una delle sei fasi suddette passi a una fase diversa. Secondo quanto ricavato da un simile modello teorico, i risultati ottimali si raggiungono soprattutto al secondo tentativo dopo la ricerca iniziale, con percentuali comunque al di sotto del 50 per cento e che tendono a rimanere tali anche nelle fasi successive.

Alfonso Maruccia