Google è ormai un oracolo pronto a rispondere a tutte le domande che possono venire in mente ai questuanti accalcati davanti alla sua homepage. Ma alcune delle più difficili e stimolanti se le pone da solo: l’ultima riguarda l’esatto numero di libri mai pubblicati in tutta la storia moderna del mondo. E anche a questa sfida Mountain View sembra aver trovato risposta : quasi 130 milioni di libri sono stati finora pubblicati, per l’esattezza 129.864.880 .
Nel Googleplex vi era la necessità di tracciare questa stima da quando era sorta la volontà di catalogare in qualche modo i libri che sarebbero dovuti essere digitalizzati con il servizio Google Books per avere una biblioteca di tutto lo scibile umano. Ed ora il calcolo ha avuto una razionalizzazione, che viene spiegata dall’informatico Leonid Taycher con un dettagliato post sul blog ufficiale.
I programmatori di Google sono partiti dalla definizione di tomo in quanto “volume idealmente rilegato in quanto tale”, un concetto simile a quello impiegato dall’ International Standard Book Numbers (il codice ISBN ), che limitatamente ai paesi occidentali e per gli ultimi 30-40 anni si propone uno scopo di catalogazione simile a quello di Google.
Agli ISBN i googler hanno dovuto aggiungere tutti i dati raccolti dalle biblioteche nazionali, dal WorldCat e da altre fonti e sistemi di catalogazione differenti dai codici ISBN, come i cataloghi degli editori, attribuendogli diversi gradi di affidabilità.
Hanno quindi utilizzato una serie di algoritmi (e un ingente numero di metadati relativi ad ogni singolo volume) per confrontare i tomi e identificare e scartare i doppioni , arrivando alla cifra di 210 milioni di volumi unici: da questi hanno quindi sottratto milioni di mappe, registrazioni audio, video e addirittura magliette catalogati come libri o prodotti assimilabili, fino ad arrivare a 146 milioni di esemplari. Da questi sono stati sottratti 16 milioni di documenti governativi fino ad arrivare alla cifra ritenuta definitiva per l’istante in cui è calcolata (sarebbe costantemente da aggiornare con i volumi attualmente in stampa).
Certo, magari le cifre dovrebbero essere aggiornate con libri storici magari perduti e dispersi in biblioteche scollegate dal mondo, ma lo sforzo di Google rappresenta un primo tentativo di tracciare a grandi linee i numeri delle risorse culturali della Terra. Con la possibilità di migliorare gli algoritmi utilizzati in questi calcoli e di affinare i dati utilizzati.
Claudio Tamburrino