Quel crawler che rastrella i domini.it

Si aggira da qualche giorno sulla rete italiana e il suo obiettivo è ambizioso: studiare come conservare la memoria del web nostrano. Dietro a questa iniziativa i tool di Internet Archive e la Biblioteca Nazionale di Firenze

Quel crawler che rastrella i domini.it Roma - Sono molti i webmaster che in questi giorni stanno registrando nei propri log una nuova presenza, un crawler che raccoglie le pagine web dei domini.it e che si riconosce facilmente: si identifica infatti come proveniente dallaBiblioteca Nazionale Centrale di Firenze . Offre anche unlink , che porta ad una pagina della Biblioteca che ne racconta in sintesi la natura.

"╚ una sperimentazione - spiega a Punto Informatico Giovanni Bergamin, responsabile dei Servizi Informatici dell'Istituto fiorentino - un progetto di ampio respiro che vede coinvolte diverse biblioteche centrali internazionali e che ha come partner di eccezione Internet Archive". Come tutti sannoInternet Archiveè un'organizzazione non profit americana che ormai da molti anni è impegnata a realizzare un ambiziosissimoarchivio del Web , dove gli utenti Internet possano consultare pagine ormai non più esistenti. Per ricordare ciò che fu con il maggior numero possibile di dettagli. E il Consorzio,quila home page, conta al suo interno alcuni dei più importanti istituti biblioteconomici del Mondo.

Il crawler è dunque una delle tecnologie di Internet Archive che, nella partnership con la biblioteca italiana, compie un'operazione diharvestingsui domini.it: va cioè a caccia degli spazi web relativi a quei domini per archiviarne le pagine e conservarlea futura memoria . "╚ evidente - incalza Bergamin - che in questa fase non si pensa a lavorare sull'intero spazio web italiano, visto che i domini che non sono.it, ma che possono essere di provenienza italiana, non sono contemplati". Ma è unprimo assaggiodi ciò che si potrebbe fare per dare modo alle strutture di archiviazione nazionale di conservare la memoria di quel pezzo d'Italia che produce, scrive, crea su Internet e di cui, con il passare degli anni, spesso si perde memoria, senza vera possibilità di recupero.
"Di recente - racconta il responsabile fiorentino - leggevo un vecchio articolo del 1997, ancora pubblicato online. Dei molti link contenuti in quell'articolo la stragrande maggioranza non porta più a nulla". Così scompaiono le risorse Internet, ed è a questo che si vuole dare una risposta.

Ci sarà una seconda fase in cui si analizzeranno gli strumenti utili a "catturare" le pagine italiane, ma per ora si opera per capirequale sforzo richieda un'impresa del genere , quali tool, quanto spazio. E i risultati potrebbero essere sorprendenti, con nuovi dati e statistiche sulla "forma" del web, dati che la Biblioteca renderà pubblici appena conclusa la sperimentazione, destinata a duraresei settimanee a chiudersi nel corso di giugno.

"Dal 2002 - ricorda Bergamin - lavoriamo con questi altri istituti all'individuazione delle tecnologie adatte. Per noi si tratta sostanzialmente dell'estensione delle regole sul deposito legale dei libri ma per ora siamo soltanto in una fase esplorativa". Il riferimento è allalegge 106 del 2004 , uno strumento che soffre di unaterminologia controversache, se presa alla lettera, si tradurrebbe nell'obbligo dei tenutari di siti e newsletter di "depositarli", non si sa bene come, presso le biblioteche nazionali centrali. Una misura che non appena approvata ha sollevatomolta polverema che ha già subìto unsostanziale stop : in uno degli ultimi consigli dei ministri della passata legislatura è stato approvato il regolamento applicativo che, nei fatti, rimanda ad un altro futuro regolamento tutto ciò che riguarda Internet.

"Questa iniziativa - spiega Bergamin - si lascia alle spalle le polemiche e anzi vuole costruire un insieme di conoscenze su metodologie e tecnologie che consentano in futuro di varare un regolamento rispettoso delle esigenze della rete". Richiedere infatti a webmaster e blogger di depositare le proprie pagine web, cioè di farle avere materialmente alle biblioteche nazionali magari con una certa periodicità, rappresenterebbe un fardello inutile, destinato adimpattare negativamente sullo sviluppo della retese non persino sulle libertà individuali.

Il Consorzio e queste iniziative vengono considerate utili dagli addetti ai lavori anche per arrivare a forme di condivisione del lavoro tra istituti. "Siamo convinti della necessità di un harvesting più intelligente e condiviso dello spazio web - sottolinea Bergamin - Non sarebbe sostenibile se tutte le biblioteche avessero crawler ad hoc". Il gran numero di crawler è per certi webmaster un vero problema, e molti li "regolano" con glistrumenti appositi , ma con un coordinamento tra biblioteche si può arrivare, questa almeno è la speranza, a compiere un'operazione per nulla invasiva eppure utile agarantire la memoria .

D'altra parte le tecnologie usate da Internet Archive, in particolare ilcrawler Heritrix , rispettano leesclusioni del protocollo robots.txt , che garantisce ai webmaster la possibilità di non essere contemplati nell'operazione di archiviazione. Ed è probabilmente questa la più grande differenza dell'impostazione che si sta perseguendo rispetto agli "obblighi" previsti dalla legge 106.
TAG: italia
26 Commenti alla Notizia Quel crawler che rastrella i domini.it
Ordina
  • A prescindere. Almeno questa è l'impressione che ho avuto leggendo i post di questo thread
    Si può non essere d'accordo sul metodo, sulla funzionalità, da parte mia non lo faccio perché non ho la competenza per metterlo in discussione.

    Ricordo che a suo tempo la normativa prevedeva l'invio su supporto digitale alla Biblioteca di tutti i contenuti senza alcun onere per lo Stato. Una cosa abominevole che aveva fatto inca**are tutti (compreso me) e che aveva fatto mettere subito i due Enti sulla difensiva, terrorizzati da un possibile e ingestibile bombing di contenuti.

    Questa iniziativa è un tentativo di correggere tecnicamente una stupidaggine legislativa. Può anche darsi che non funzioni, ma mi sembra di aver letto che sono in una fase sperimentale, forse si sta valutando la fattibilità, ma non mi sembra il caso di sparare a zero su un progetto.

    La cosa che mi stupisce di più è l'insofferenza verso l'idea che qualcuno stia facendo una copia delle proprie pagine Web. A parte il fatto che, come dice l'informativa della Biblioteca, il crawler supporta la tecnologia del robot.txt, perciò se proprio ci teniamo a rendere esclusiva la nostra presentazione Web la cosa si può fare. In ogni caso, se non vogliamo che un contenuto sia pubblico perché metterlo sul Web libero? Quali segreti di pulcinella vogliamo proteggere? Se poi vogliamo fare dietrologia, se davvero si sta costruendo un sistema di ritorsione ci sono metodi probabilmente più semplici. E perché siamo disposti a farci violare da Google ma non dalla Biblioteca? Mi sa tanto di preconcetti a prescindere.

    Insomma, non ho pregiudizi contro una memoria storica, perciò non vedo i motivi per denigrare questa iniziativa. Se andrà a porto ben venga, sarà uno strumento in più a disposizione che si aggiungerà alle cache e archivi Web. Se poi ci sono dei punti deboli, come la conservazione di contenuti inutili o la tutela della privacy, questi si possono correggere, perfezionare.

    Tutto questo naturalmente in my humble opinion
    gian_d
    10466
  • www.archive.org
    hanno scoperto l'acqua calda complimenti
    non+autenticato

  • - Scritto da:
    > www.archive.org
    > hanno scoperto l'acqua calda complimenti

    Complimenti a te per l'analisi lucida che tiene conto di tutti i fattori in gioco, delle prospettive e delle normative. Grazie.
    non+autenticato

  • - Scritto da:
    >
    > - Scritto da:
    > > www.archive.org
    > > hanno scoperto l'acqua calda complimenti
    >
    > Complimenti a te per l'analisi lucida che tiene
    > conto di tutti i fattori in gioco, delle
    > prospettive e delle normative.
    > Grazie.

    'o dici ?
    non+autenticato
  • Ma c'è pure la roba porno d'annata!
    Ma quella roba è meglio che non rimanga nella storia. Ci facevamo una figura migliore (soprattutto con le generazioni future) se lasciavamo che il tempo facesse scivolare tutto nel dimenticatoio.
    Imbarazzato
    non+autenticato
  • Mi sembra che esista nella polverosa massa di leggi italiane inapplicate (MENO MALE) , che però possono essere risvegliate alla bisogna.
    Una certa legge che impone l'invio della documentazione di ogni sito web alle biblioteche .
    Che sia una raccolta di informazioni per verificare se la riesumazione della legge in questioni apporti posti di lavori e introiti interessatnti a queste strutture.
    Chiarmanete sarebbe il solito inutile lavoro burocratichese che al cittadino non porterebbe nessun vantaggio , ma solo la scomparsa di molti siti web (con consegunete accentramento dell'informazione) e qualche buon contratto di fornitura Hw a qualche ammanicato con al PA
    per la gestione della mole dei dati.

    Saluti
    non+autenticato
  • ma per seguir google e conoscenza A bocca aperta
    Apparte gli scherzi.
    Posso comprendere che si voglia salvare parte della nuova cultura in rete.
    Passi che ci sia bisogno di un modo per salvare giga e giga di pagine web.
    La prima domanda è: ma davvero bisogna salvare tutto? L'avete visti certi siti in giro? Io purtroppo si...
    La seconda domanda è:
    ma mica tutti gli italiani che hanno un sito lo hanno sotto il dominio .it
  • Bellissimo titolo! Sorride
CONTINUA A LEGGERE I COMMENTI
1 | 2 | 3 | Successiva
(pagina 1/3 - 13 discussioni)