Riconoscere il contenuto di un’immagine, anche se questa è stata ridotta a risoluzione bassissima? Ora è possibile, grazie al software progettato da un team internazionale di ricercatori, che riesce a distinguerle accontentandosi di un totale compreso tra 256 e 1024 bit di dati .
La ricerca è stata coordinata da Antonio Torralba , professore del Computer Science and Artificial Intelligence Laboratory del MIT. Al suo lavoro di ricerca hanno collaborato Rob Fergus del Courant Institute of Mathematical Sciences (Università di New York) e Yair Weiss , dell’ Università di Gerusalemme .
Perché una ricerca di questo tipo? Perché in rete potrebbe rappresentare una piccola rivoluzione. Le immagini – osservano gli scienziati – mancano di elementi intrinseci che ne descrivano il contenuto. Per questo siti come Flickr chiedono agli utenti di accompagnare ogni immagine con tag, descrizioni, categorie ed ogni altro attributo aggiuntivo che aiuti a classificarla per poi poterla ritrovare servendosi di una funzione di ricerca. Il tagging , utilizzato anche in altri ambiti e persino al centro di molte infrastrutture di search e di servizi per il web di “nuova generazione”, è un’attività spesso imprescindibile per mettere ordine nel caos, o trovare le giuste rotte in un oceano di informazione.
Proprio su questo punto vuole intervenire il lavoro svolto da Torralba: cercare elementi che automatizzino l’individuazione del contenuto. Per farlo, gli scienziati hanno cercato il limite inferiore sotto a cui diventa impossibile operare distinzioni. Il gruppo ha così messo a punto una riduzione matematica , che ha permesso di individuare il limite entro cui la quantità di informazioni nell’immagine ridotta è ancora sufficiente a descriverne il contenuto. “Stiamo cercando di trovare le sequenze più corte possibile: se due immagini hanno al loro interno sequenze numeriche simili, molto probabilmente contengono lo stesso oggetto e lo stesso contorno”, dice Torralba.
Per dimostrare graficamente alcune delle affermazioni del gruppo, Torralba ha predisposto un apposito sito , intitolato 80 milioni di piccole immagini . Passando il puntatore del mouse su ciascuna di esse (vedi immagine a lato) e cliccando su un qualsiasi puntino si apre un popup che ne descrive il contenuto ed esibisce quello stesso oggetto in vari contesti.
D’altro canto, spiega il gruppo, grazie alla conoscenza pregressa delle immagini in senso generale all’uomo bastano 32 x 32 pixel (quindi un totale di 1024) per individuare il contenuto di un’immagine. Invece, online vi sono molti esempi di cataloghi con risoluzioni maggiori: Google Immagini, ad esempio, ha thumbnail da 100 x 100 pixel (quindi un totale di 10 mila ciascuno) e – secondo gli scienziati – rappresenta un grande spreco di risorse. Molto però va ancora studiato: questa tecnologia si rivela efficace per oggetti comuni ma esibisce limiti consistenti se tratta oggetti non comuni. La ricerca è ancora in uno stato poco più che embrionale, spiegano i ricercatori. “È equivalente all’apprendimento del linguaggio. Ci sono molte parole che sentiamo spesso ma, a prescindere da quanto tempo abbiamo vissuto, ce ne saranno sempre alcune che non abbiamo mai sentito. Per impararle abbiamo solo una strada: quella di conoscerle attraverso degli esempi”, illustra Torralba.
Per i più curiosi, a questo indirizzo c’è l’intero studio (formato PDF, circa 20 MB), con tutti i dettagli.
Marco Valerio Principato