Gaia Bottà
mercoledì 15 ottobre 2008

Una biblioteca da 78 tera

I progetti di digitalizzazione delle biblioteche universitarie statunitensi convergono in un'unica interfaccia online: libri più accessibili per i ricercatori, testi in pubblico dominio per tutti i netizen. Perché Google non è per sempre

Roma - Oltre due milioni di volumi, oltre 737 milioni di pagine, 1713 tonnellate di carta tramutate in 78 terabyte di dati: si tratta dalla biblioteca digitale in fieri che un consorzio di 12 università statunitensi, e le biblioteche di 13 atenei, stanno edificando online.

Displaced Books - Editor BHathiTrust è un progetto per riunire gli archivi delle sconfinate biblioteche delle università statunitensi e farle sfociare in un unico punto di riferimento online. La biblioteca di Berkeley, quella della Penn State, i volumi dell'Università di Chicago, quelli dell'Università del Michigan e molti molti altri convergeranno nell'HathiTrust: sarà una biblioteca elefantiaca, a suggerirlo è il nome assegnato al progetto, Hathi, il corrispettivo hindi per elefante, animale dalla solida memoria.

L'obiettivo del progetto è quello di ampliare infinitamente le prospettive dei ricercatori: sarà un gesto immediato accedere al delicato volume che risiede fisicamente nella biblioteca a migliaia di chilometri di distanza, smaterializzato in bit che scorrono online. Se gli atenei statunitensi hanno già alle spalle la migrazione verso la digitalizzazione, Hathi rappresenta la prima interfaccia comune per condividere la cultura, per lasciarla scorrere fra gli studenti e stimolare il loro interesse e incoraggiarli alla rielaborazione della cultura.
La digitalizzazione dei testi sta procedendo a favore del pubblico universitario o in parallelo alla collaborazione con iniziative come Google Book Search o come l'Open Content Alliance supportata da Internet Archive, Yahoo e Microsoft. Se il lavoro sporco della digitalizzazione è già ben avviato, HathiTrust sta meditando sulle strategie per uniformare i formati e armonizzare le soluzioni scelte dai singoli atenei per proporre al pubblico le proprie biblioteche.

Nonostante HathiTrust si rivolga principalmente a coloro che orbitano intorno agli atenei, ha in comune con le altre iniziative di digitalizzazione di libri il nodo da sciogliere del copyright. Se Google sfida editori e autori promettendo loro visibilità e dobloni e sbattendo in rete contenuti protetti dal diritto d'autore, OCA ha scelto di imboccare un'altra strada e di chiedere l'autorizzazione preventiva dei detentori dei diritti e di digitalizzare e mettere a disposizione i soli contenuti caduti in pubblico dominio, un patrimonio spesso trascurato dagli editori ma non per questo di minor valore. L'elefante di HathiTrust muove sul crinale delle due strategie: tutti i libri digitalizzati verranno riversati in rete a favore del personale accademico, mentre i volumi il cui testo è caduto in pubblico dominio, circa il 16 per cento del totale, verranno resi disponibili anche ai cittadini della rete.

"Google non esisterà per sempre - non teme di azzardare un bibliotecario dell'università del Michigan, rappresentante di HathiTrust - questa iniziativa rappresenta un impegno per la conservazione di questi materiali: facciamo questo lavoro da qualche manciata di secoli e abbiamo intenzione di continuare a farlo".

Gaia Bottà

fonte immagine
29 Commenti alla Notizia Una biblioteca da 78 tera
Ordina
  • come da titolo XD

    Pensate un po al backup che ci deve star dietro a tutto quanto ghghg

    P.s.: Suppongo si allarghi sempre di piu il tutto. Tipo wikipedia....o sbaglio alla grande ???
    non+autenticato
  • mbe dipende....io lavoro su Oracle e dipende che tipo di backup, cmq generalmente se proprio va male puo' allargarsi di un 1% !!!
    non+autenticato
  • figata una biblioteca tutta digitalizzata..
    non+autenticato
  • ed ho 2 Tera e mezzi !!!!!

    A fine giugno ho intenzione di comprare un NAS casalingo da altri 2 tera (di cui 1 utilizzabile in quanto RAID 1).

    Non mi sembra che 78 tera siano eccezionali come cifre !
    non+autenticato
  • Quindi? Non è una gara a chi l'ha più grosso (il disco fisso), anche perché una architettura adeguatamente ridondata e affidabile per equipaggiare un sistema server non è necessariamente paragonabile all'hw di uso domestico.

    Quello che importa in questo caso è il contenuto che occupa quei 78 Tera: "Oltre due milioni di volumi, oltre 737 milioni di pagine, 1713 tonnellate di carta".
    E' importante perché comprende tutto il processo di input: acquisizione, correzione, pulizia dei dati, compressione, indicizzazione, ecc. Non è che basta aprire eMule e lasciare acceso a scaricare Gigabyte belli pronti.

    Se vuoi cominciare a scansionare volumi per i tuoi due Tera e mezzo, fai con calma. Poi ci racconti.Occhiolino
    non+autenticato
  • > Non mi sembra che 78 tera siano eccezionali come
    > cifre
    > !

    Si, è vero.
    Ma qui si parla di 78 Tera di testo. Chi ha voglia di scrivere così tanto? Perché è vero che puoi avere un film (un DVD) che ti occupa 4 GB, e allora 78 tera sono "solo" 19968 DVD/film. Ma 78TB di libri (di testo) sono anche molti ma moltiiii di più. Ossia, come dice l'articolo "Oltre due milioni di volumi, oltre 737 milioni di pagine, 1713 tonnellate di carta". Non male! E' appunto questo il bello: potresti eliminare gli scaffali che usi per sostenere queste 1713 tonnellate di carta e metterli su hard disk in formato digitale, appunto sono solo "78TB" che volendo anche per un privato sono (se appassionato di dischi rigidi...) raggiungibili (mentre ci sarebbero più difficoltà nel creare un nuovo deposito e a "clonare/copiare" tutto quel materiale dal e in, formato cartaceo).
    non+autenticato
  • - Scritto da: ABC
    > > Non mi sembra che 78 tera siano eccezionali come
    > > cifre
    > > !
    >
    > Si, è vero.
    > Ma qui si parla di 78 Tera di testo.

    Che probabilmente sono molti di più, se com'è probabile quel testo è compresso visto che i file di testo sono tra le cose meglio comprimibili dopo i file midi. Si arriva mediamente al 90% e molto spesso anche oltre. Quindi 78 tera in formato compresso sarebbero non compressi, se è come penso, circa 7 PETAbyte (cioè 7000 terabyte)
    -----------------------------------------------------------
    Modificato dall' autore il 15 ottobre 2008 02.16
    -----------------------------------------------------------
  • > > Si, è vero.
    > > Ma qui si parla di 78 Tera di testo.
    >
    > Che probabilmente sono molti di più, se com'è
    > probabile quel testo è compresso visto che i file
    > di testo sono tra le cose meglio comprimibili
    > dopo i file midi. Si arriva mediamente al 90% e
    > molto spesso anche oltre. Quindi 78 tera in
    > formato compresso sarebbero non compressi, se è
    > come penso, circa 7 PETAbyte (cioè 7000
    > terabyte)

    beh dai, non credo che siano in plain/text

    suppongo che adottino formati di impaginazione tipo pdf (di cui esiste una versione standard - iso mi sembra) o postscript...
    cio' non toglie che siano cmq TANTI 78 tera
    non+autenticato
  • mmmm mi sa che sono pagine scannerizzate, non ricopiate in formato testo....
    non+autenticato
  • in effetti non sono tanti (in assoluto). sono proporzionati al contenuto.

    quando vorranno fare l'archivio universale dei film però dovranno usare qualche petabyte...
    non+autenticato
  • - Scritto da: Marco Marcoaldi
    > ed ho 2 Tera e mezzi !!!!!
    >
    > A fine giugno ho intenzione di comprare un NAS
    > casalingo da altri 2 tera (di cui 1 utilizzabile
    > in quanto RAID
    > 1).
    >
    > Non mi sembra che 78 tera siano eccezionali come
    > cifre
    > !

    Fregato... io ho 3 dischi da un tera collegati... 1 tera di questi è dedicato solo ai libri... (quando c'è una gara di chi ce l'ha più lungo non so resistere...)
    non+autenticato
  • ue interessante... scambi?
  • - Scritto da: frik--
    > ue interessante... scambi?

    mmm.. perché no?
  • > Fregato... io ho 3 dischi da un tera collegati...
    > 1 tera di questi è dedicato solo ai libri...
    > (quando c'è una gara di chi ce l'ha più lungo non
    > so
    > resistere...)

    Se vuoi vincere veramente la gara questo bel Tera di libri te lo devi essere letto almeno per 1/100, avere un harem di un 1000 donne e non tromb.... neanche una non e' averlo tanto lungo ....
    non+autenticato
  • visto che deve essere una cosa pubblica, fruibile nel tempo e accessibile da tutti una "biblioteca" del genere dovrà per forza:

    1) usare formati APERTI completamente in modo che chiunque possa, se capace, scrivere un programma che legge questi file

    2) leggibili da tutti vuole dire che, come su wikibooks.org ad esempio, chiunque potrà leggere e consultare la libreria. non escludo comunque servizi a pagamento forniti dallo stato come la stampa e la rilegatura di un libro ad esempio

    3) biblioteca statunitense non vuol dire che solo chi abita negli stati uniti può leggere e consultare l'archivio. con i supporti cartacei se una copia di un libro esiste solo in una biblioteca chi non ce l'ha farà fatica a fruirne
    invece con file digitali la copia e la distribuzione del sapere umano nel mondo sarà molto più veloce
    tuba
    342
  • Com'è che queste cose quando le fa Google nessuno dice niente, mentre se le fanno altri allora tutti a richiedere "apertura"??


    - Scritto da: tuba
    > visto che deve essere una cosa pubblica, fruibile
    > nel tempo e accessibile da tutti una "biblioteca"
    > del genere dovrà per
    > forza:
    >
    > 1) usare formati APERTI completamente in modo che
    > chiunque possa, se capace, scrivere un programma
    > che legge questi
    > file
    >
    > 2) leggibili da tutti vuole dire che, come su
    > wikibooks.org ad esempio, chiunque potrà leggere
    > e consultare la libreria. non escludo comunque
    > servizi a pagamento forniti dallo stato come la
    > stampa e la rilegatura di un libro ad
    > esempio
    >
    > 3) biblioteca statunitense non vuol dire che solo
    > chi abita negli stati uniti può leggere e
    > consultare l'archivio. con i supporti cartacei se
    > una copia di un libro esiste solo in una
    > biblioteca chi non ce l'ha farà fatica a
    > fruirne
    > invece con file digitali la copia e la
    > distribuzione del sapere umano nel mondo sarà
    > molto più
    > veloce
  • - Scritto da: davide73
    > Com'è che queste cose quando le fa Google nessuno
    > dice niente, mentre se le fanno altri allora
    > tutti a richiedere
    > "apertura"??
    >

    aspetta, te lo riscrivo:


    > > visto che deve essere una cosa pubblica,
    > fruibile
    > > nel tempo e accessibile da tutti


    Ecco perché
  • Aspetta che te lo riscrivo anch'io...

    Com'è che queste cose quando le fa Google
    nessuno dice niente, mentre se le fanno altri allora
    tutti a richiedere "apertura"??

    Non discuto sul fatto che queste cose debbano o meno essere aperte ed il perché, ma piuttosto perché tali questioni non escano quando ne è Google l'artefice.



    - Scritto da: longinous
    > - Scritto da: davide73
    > > Com'è che queste cose quando le fa Google
    > nessuno
    > > dice niente, mentre se le fanno altri allora
    > > tutti a richiedere
    > > "apertura"??
    > >
    >
    > aspetta, te lo riscrivo:
    >
    >
    > > > visto che deve essere una cosa
    > pubblica
    ,
    > > fruibile
    > > > nel tempo e accessibile da tutti
    >

    >
    > Ecco perché
  • perchè Google è una multinazionale e cerca sempre di acquisire diritti speciali (a fini di profitto) sul materiale che tratta, mentre se lo fa un consorzio c'è un po' (pochino) di sicurezza in più sull'effettiva fruibilità del materiale.
    non+autenticato
  • - Scritto da: davide73
    > Aspetta che te lo riscrivo anch'io...
    >
    > Com'è che queste cose quando le fa Google
    > nessuno dice niente, mentre se le fanno altri
    > allora
    > tutti a richiedere "apertura"??

    Ma sei gnucco?
    Pubblico -> pretendo formati aperti visto che pago pure io che NON uso windows
    Privato (google) -> al massimo posso chiederlo, non pretenderlo, e comunqueso già che li userà.

    > Non discuto sul fatto che queste cose debbano o
    > meno essere aperte ed il perché, ma piuttosto
    > perché tali questioni non escano quando ne è
    > Google
    > l'artefice.

    Perché google è un'azienda privata che usa già formati open di suo, mentre nel pubblico la lunga mano oliatrice di MS si fa sentire già di più.

    Ora è più chiaro?