Trovare le parole e le foto giuste

Contare quante volte un vocabolo è ripetuto non basta. Occorre anche capire dove e come avviene la reiterazione. Uno studio spagnolo potrebbe dare una mano al web, mentre Yahoo! aggiorna il suo sistema di ricerca delle immagini

Roma - Studiare un testo come fosse un sistema quantistico applicando tecniche di analisi matematiche: basta contare le parole per estrapolare concetti interessanti, per sintetizzare il contenuto e i concetti chiave di uno scritto. È quanto è riuscito a Pedro Carpena, fisico dell'Università di Malaga, che ha applicato le sue teorie a testi di ogni tipo: scovando di volta in volta le parole chiave dell'argomento trattato, e gettando le basi per un nuovo tipo di classificazione dei testi.

Un po' come succede con Google, che giudica la rilevanza di un sito in base alle relazioni che intesse con il resto del Web, Carpena ha cercato un modo per pesare una parola (keyword) all'interno di un testo: partendo dal presupposto che già la semplice ripetizione di un vocabolo potesse di per sé costituire un indice di rilevanza, ha poi aggiunto un criterio basato sulla prossimità della ripetizione.

Un concetto fondamentale per un saggio o una teoria scientifica secondo Carpena richiede l'utilizzo di termini specifici, più volte ripetuti nel giro di poche righe o poche pagine per estrinsecare al meglio il pensiero dell'autore. Non è soltanto la ripetizione che conta, ma pure la posizione in cui le parole vengono disposte: il risultato degli esperimenti, condotti su un campionario multilingua comprendente inglese, spagnolo, latino, tedesco e italiano, è sembrato incoraggiante.
Sia che si tratti di Darwin che discetta delle origini delle specie che di Einstein che spiega la Relatività, oppure che sia il turno di Dante di condurre in un viaggio che parte dall'inferno ed arriva in paradiso, la tecnica delle matrici casuali applicata da Carpena ottiene buoni risultati: i concetti chiave, i nomi dei personaggi più presenti, tutti vengono correttamente identificati e posti in evidenza. Un meccanismo potenzialmente utile anche per rivedere con maggiore cognizione di causa i database dei motori di ricerca su web, che acquisirebbero per così dire un pizzico di giudizio semantico in più.

Carpena ha anche applicato la sua teoria agli stessi testi analizzati in precedenza, questa volta eliminando tutti gli spazi e facendo eseguire un parsing continuo: istruendo il computer ad andare in cerca di stringhe significative comprese tra 2 e 35 caratteri i risultati sono stati egualmente positivi, segno che probabilmente la sua tecnica potrebbe essere applicata anche ad altre base di dati strutturate in modo differente dal linguaggio umano. Per il momento lo studio sembra non analizzare l'efficienza del metodo: per quella, chiarisce New Scientist saranno necessari ulteriori approfondimenti futuri.

La capacità di scovare i contenuti più appropriati nell'oceano sempre più vasto della conoscenza della Rete è d'altronde uno dei problemi più attuali del search: le sperimentazioni e i primi tentativi di valorizzare il deep web non mancano, ma riuscire a presentare quanto attualmente indicizzato in modo più fruibile sarebbe un obiettivo non da poco. In questa direzione si stanno muovendo Google e pure Microsoft, che lavora dietro le quinte al suo Kumo).

Questa volta però la novità viene da Sunnyvale: Yahoo! ha da poco dato una rinfrescata all'interfaccia della sua ricerca immagini, staccandosi dallo schema adottato anche dalla concorrenza e provando a offrire un'interfaccia più estesa e completa all'utente finale. Cliccando su uno dei risultati proposti si verrà come di consueto condotti sulla pagina che contiene la immagini: ma la barra che di solito viene posta in cima ai contenuti ora è più ampia, contiene un riquadro per ritentare la ricerca con un'altra parola chiave e altri risultati proposti dalla keyword attuale, più le ricerche tipicamente abbinate a quell'argomento. Secondo Yahoo!, ora "la pagina di anteprima vi aiuterà a trovare quello che state cercando, forse anche a scoprire qualcosa di nuovo": chissà se anche la concorrenza adotterà la stessa soluzione.
1 Commenti alla Notizia Trovare le parole e le foto giuste
Ordina
  • ...già sono predisposti per fornire una lista di posizioni di occorrenza nell' indice (inverted file), aggiungere una metrica di prossimità o densità non dovrebbe costituire un costo computazionale eccessivo.

    Restano irrisolti i problemi dei riferimenti indiretti (es: pianta legnosa d'alto fusto vs albero) e delle ambiguità semantiche da composizione (es: progettazione con il calcolatore vs progettazione del calcolatore) a cui per ora solo le marche semantiche/ontologie e skolemizzazione rispettivamente danno una risposta soddisfacente ma costosa.
    non+autenticato