Database di enormi dimensioni. Raggiungibili in modo gratuito, semplice, pressoché istantaneo. È questa la promessa di Public Data Sets (PDS), il web service per la condivisione di basi dati appena lanciato da Amazon. Forse il primo vero passo verso un autentico cloud computing.
Il progetto, spiega Techcrunch , nasce con l’ambizione di garantire a tutti – singoli ricercatori, istituzioni accademiche, aziende – un grado di facilità nell’accesso ai dati che prima era riservato a pochi. Chiunque potrà caricare dentro PDS database di ogni dimensione, e tutti i set saranno disponibili per il riuso successivo (gratuito) da parte degli altri utenti.
Di per sé, il concetto non è nuovo. Esistono da anni iniziative, come ad esempio il Gutenberg Project ( GP ), pensate per garantire a tutti un accesso pubblico e gratuito a database anche molto ampi. Solo che i publicly available data sets di questo genere prevedono tempi protratti per le attività di upload/download: per scaricare un normale ebook da GP si calcola possano essere necessarie anche 48 ore.
PDS, per converso, promette tempi di accesso, scaricamento e reimpiego velocissimi. All’interno della scheda ufficiale di presentazione del progetto Amazon lo sostiene con forza:: “In passato, i data set di grandi dimensioni (…) richiedevano ore o giorni per le attività di individuazione, download, customizzazione e analisi. Adesso, chiunque può accedere a questi dati dalla propria utenza Amazon Elastic Compute Cloud (Amazon EC2) e cominciare a lavorare sui dati nell’arco di pochi minuti”.
Tra i data set già oggi disponibili all’interno del repository PDS vi sono: la mappa commentata del genoma umano, diversi database di dati demografici e sul mercato del lavoro statunitense, basi dati pubbliche di strutture chimiche. Ma la call per l’upload di nuovi materiali è aperta, ed i progettisti si dicono fiduciosi di poter rapidamente allargare il patrimonio di informazioni possedute. Forse, stavolta, il cloud computing è arrivato per davvero.
Giovanni Arata