Perché la semantica non funziona

Perché la semantica non funziona

O meglio, perché non funziona sui grandi numeri. Marco Varone di Expert System spiega a Punto Informatico dove sta andando il search di nuova generazione. E perché
O meglio, perché non funziona sui grandi numeri. Marco Varone di Expert System spiega a Punto Informatico dove sta andando il search di nuova generazione. E perché

Non è tutta semantica quello che luccica. Anzi, molto spesso di questa tecnologia negli annunci che si succedono a destra e manca non c’è proprio niente (o quasi niente): finisce che la parolina magica ci finisce per assonanza, e magari – come racconta Marco Varone , CTO di Expert System – nel comunicato originale non c’era neppure. E allora tanto vale cercare di capire cosa può fare e cosa non può fare davvero la semantica per il search: generalista e non.

È corretto, chiediamo, affermare che forse questa tecnologia va bene per motori tematici e non va bene per progetti ad ampio spettro ? La risposta è una specie di : “La semplificazione è tutto sommato corretta, ma deriva essenzialmente da quello che è un inevitabile fattore costo: applicare la semantica ai grandi numeri, su grandi servizi che magari hanno milioni di utenti, richiede un investimento ingente per giungere a una messa a punto tale da garantire una qualità media del servizio accettabile”. Il rischio, spiega Varone a Punto Informatico , è che se questa messa a punto non viene fatta il meccanismo semantico peggiori la percezione della qualità del servizio.

“Per applicazioni più specifiche è più semplice tenere sotto controllo i costi: a meno di non avere le risorse di un gigante come Google, è più semplice e realizzabile affrontare i problemi per piccoli passi”. Non esiste un ostacolo tecnologico ad applicare la semantica ai grandi numeri di un search engine generalista, ma la curva dei costi di gestione rapportati all’effettiva efficienza è talmente ripida da rischiare di ridurre sul lastrico qualsiasi startup prima che sia riuscita a mettere a punto il suo motore. “C’è come uno scalone in ingresso, e non è facile superarlo per crescere: man mano che la tecnologia matura i costi si riducono ma non scompaiono: non è un caso che chi fa sperimentazione semantica su web, soprattutto oltreoceano, abbia speso decine di milioni di dollari ma i risultati di questi investimenti si vedano appena”.

Questo scalone, tuttavia, non deve scoraggiare chi oggi guardi alla semantica per rendere più efficiente il proprio search: ci sono settori dove la sua messa in pratica ha un costo tutto sommato accettabile, e con un motore di questo tipo si possono fare cose egregie. “Prendiamo il caso dell’automobile: ce l’abbiamo tutti o quasi tutti, e tutti quando dobbiamo comprarne una nuova cerchiamo informazioni online – racconta Varone – C’è la sensazione da parte di molti che da qualche parte, nel web, ci siano le informazioni utili a guidarli nella scelta dell’auto: ci sono i commenti sui forum, sui blog, che crescono sempre di più e forniscono effettivamente informazioni interessanti”.

Quello che Varone e i suoi colleghi hanno notato è che quello delle auto è un settore dove effettivamente esistono migliaia e migliaia di opinioni espresse in migliaia di posti diversi : si tratta generalmente di informazioni di buona qualità e mediamente utili. “Così abbiamo realizzato uno strumento, inizialmente per le aziende ma volendo disponibile anche per il pubblico, che indicizza e analizza tutti i forum e i blog che contengono le opinioni sulle automobili: grazie alla tecnologia semantica capisce di quale auto e di quale caratteristica si parla ed è in grado di fornire una risposta più circostanziata rispetto ad un singolo prodotto”. Quello che fa la semantica, spiega, è estrarre e sintetizzare una informazione diffusa : la conoscenza diluita in centinaia o migliaia di rivoli viene condensata in un singolo pozzo da cui attingere. L’unica limitazione, per il momento, è lavorare su volumi sostanziosi ma non sconfinati di informazioni: il risultato, tuttavia, può essere di gran valore ed equivale in un certo senso ad un sondaggio con un campione formato da decine di migliaia di individui. Il bello è che, come per l’auto, la semantica può permettere di dare una risposta a problemi comuni di ogni giorno: ad esempio come va un particolare modello di telefonino, com’è un albergo dove si vuole andare in vacanza, com’è il tempo in una certa località.

“Se l’informazione di base non è di buona qualità, non si possono fare miracoli – spiega Varone a Punto Informatico – In gergo si dice: garbage in, garbage out . Ma se c’è una buona conoscenza distribuita da cui partire, con la semantica posso tirar fuori un valore, posso estrarre e rendere trattabile la conoscenza”. Oppure si può ribaltare la questione: si parte da una serie di informazioni tutto sommato limitate, e si utilizza la semantica per attingervi. Come accade con un’altra tecnologia, che di recente ha anche vinto alcuni premi prestigiosi , chiamata Cogito Answer : c’è lei dietro il servizio COsmOs fornito dal Consorzio dei Comuni Trentini, e consente di fare una domanda via SMS in linguaggio naturale per ricevere la risposta desiderata.

“Si manda un SMS con una richiesta specifica – racconta Varone – magari si domandano notizie sul meteo, sulla disponibilità dei servizi di trasporto pubblico, sugli orari di un ufficio o su quale sia la farmacia di turno più vicina: normalmente sono informazioni che un ente pubblico mette a disposizione magari attraverso il proprio portale, ma non sempre è così immediato reperirle. In questo caso basta un SMS, si scopre l’orario e si va all’ufficio. La semantica serve anche a questo, a rendere semplice l’utilizzo delle informazioni e ridurre il tempo necessario ad avere una risposta: la conoscenza da somministrare non è complessa, ma la semantica aiuta a fruirne in modo naturale”.

Un telefono cellulare, continua Varone, lo usano molte più persone di quante non utilizzino Internet tutti i giorni: a differenza di un centralino con persone che rispondono, però, COsmOs è un sistema fortemente scalabile . In un anno ha risposto a qualcosa come 7-8 milioni di domande con una precisione del 90 per cento: ma non c’è soltanto il meteo tra i possibili campi di applicazione della semantica. “Nel campo del turismo, della ricettività alberghiera, della ristorazione e dei parchi c’è un buon volume di conoscenza e la qualità delle informazioni che circolano è buona”: con un investimento tutto sommato contenuto si potrebbero raccogliere dati, sempre aggiornati, e creare delle autentiche guide turistiche con le informazioni inserite online dagli utenti. Impossibile non lanciarsi in una domanda tecnica: per un progetto come quello di Italia.it , quanto ci vorrebbe per mettere in piedi un database semantico che raccolga le informazioni utili al turismo? Due o tre milioni di euro e dodici mesi di tempo è la stima a spanne di Varone: “Su molte strutture turistiche ci sono commenti in italiano e in inglese: soprattutto i turisti stranieri si sentono molto motivati a pubblicare le loro impressioni, e raccogliendole si potrebbe creare un servizio utile a molte persone e anche a chi voglia venire a visitare il nostro paese dall’estero”. Il volume di conoscenza disponibile in Rete è buono, ma nessuno fino ad oggi ha tentato di sfruttarlo: sarebbe un’occasione interessante in diverse lingue, spiega.

Perché, c’è differenza tra le diverse nazioni e i diversi idiomi? “L’Internet in italiano e l’Internet in Inglese sono diversi – chiarisce Varone a Punto Informatico – In quello italiano non sono ancora tantissimi i contesti in cui valga la pena semanticizzare : i beni più comuni, come i telefonini, sono un settore che varrebbe la pena di battere, e lo stesso dicasi per le TV, i computer (soprattutto portatili) e per qualche altro oggetto di elettronica di consumo. Su altri argomenti non c’è tantissimo”. A dire il vero un’eccezione ci sarebbe, ci spiega, ma la sua connotazione italiana la rende un campo difficile: “Ci sono una infinità di commenti politici, ma sono francamente intrattabili”.

In che senso? “Molto spesso sono estremizzati, molto complessi nell’esposizione, profondamente collegati e interconnessi tra loro: il modo di esprimersi è metaforico, c’è un riferimento esplicito alla strettissima attualità e ad altre opinioni espresse da altri utenti. È un peccato – aggiunge – perché sul mondo politico c’è davvero tantissimo materiale: ma è difficile da trattare in modo da tirar fuori qualcosa di interessante e di utile alle persone, in questo contesto è difficile tirar fuori qualcosa di oggettivo”.

Le cose vanno diversamente sul mercato statunitense. “In un certo senso lì è come se Internet fosse anni avanti, c’è tanto su tanti argomenti: anche la politica è più affrontabile, l’esposizione normalmente è più concreta e oggettiva. Anche lì ci sono sostenitori accesi nelle loro opinioni, ma le riflessioni pacate abbondano: certo rimane il problema dell’attualità da affrontare, ma non è escluso che qualcosa possa venirne anche fuori a breve”: l’interesse dell’attuale amministrazione per le cose di Rete potrebbe fare da volano alle attività in questo settore, spiega. E poi ci sono ad esempio i farmaci , un argomento che in Italia non raggiunge una massa critica da trattare, ma che negli USA annovera “tonnellate di contenuti”: c’è molta conoscenza da trattare e da mettere a disposizione dei navigatori.

Ma insomma, c’è qualcosa che la semantica non riesce a fare? “Per esempio il comparatore di prezzi! – risponde Varone – Spesso succede che nelle schede tecniche ogni sito descriva il prodotto in maniera diversa, con codici diversi: magari c’è un telefonino con una versione base e quella con il doppio della memoria, ma sul sito non viene esplicitato e ci sono delle informazioni non semantiche disseminate tra dettagli tecnici non banali”. Questo, a dispetto di quanto si potrebbe credere insomma, non è un campo di applicazione particolarmente interessante.

La semantica, pare di capire, è per molti (usi) ma non per tutti: “La semantica è una tecnologia in grado di fare da abilitatore: facilita il lavoro, è in grado di suggerire una soluzione in certe occasioni. È un campo nel quale sperimentare è ancora necessario, ma che consente di rendere trattabile e organizzabile la conoscenza. Non è ancora una tecnologia pervasiva – conclude Varone – a volte quando la si vede all’opera non la si comprende da subito: ma se si ha l’umiltà di provarla e di farsi guidare da chi la conosce, il risultato può essere molto interessante”.

a cura di Luca Annunziata

Link copiato negli appunti

Ti potrebbe interessare

Pubblicato il
17 apr 2009
Link copiato negli appunti