venerdì 1 agosto 2008

La mole dei dati salverà la privacy?

di Andrea Rossetti - Se le previsioni di IDC si dovessero verificare, verrà il giorno in cui non sarà più possibile conservare a lungo i log delle attività Internet. Un giorno liberatorio?

Roma - Le attività di social networking sono quelle che stanno maggiormente crescendo nel web 2.0, ossia nella parte di Internet centrata sugli utenti, in cui ognuno può condividere i propri dati con gli altri. Dei 45 GB che una recente ricerca IDC attribuisce, in media, a ciascun essere umano vivente sulla terra, la metà sono dati volontariamente creati e spontaneamente messi a disposizione dall'utente (le loro digital footprint, orme digitali), mentre l'altra metà sono dati necessariamente generati dagli individui nel comune svolgimento della vita quotidiana (la loro digital shadow, ombra digitale).

Benché la mole dei dati personali che vengono prodotti - nello stesso documento si sostiene che la nascita di un bimbo provochi, nei paesi occidentali, la registrazione di circa 250 GB di dati - sia quantitativamente e cognitivamente enorme, sono in vendita dei device di memorizzazione abbastanza grandi da poter contenere tutta la vita digitale di un essere umano e abbastanza economici da essere alla portata di chiunque.

Ad esempio, se l'aumento della capacità della smartcard continuerà nel prossimo periodo con l'attuale differenziale, entro il 2011 avremo smart card da 64 GB al costo di una trentina di euro. Ci sono nella ricerca altri dati curiosi: il numero dei bit memorizzati nei nostri hard disk è superiore al numero stimato di stelle nell'universo e se l'umanità continuerà ad accumulare "atomi digitali" con questo ritmo, di un fattore 10 ogni 5 anni, tra quindici anni il numero di bit prodotti sorpasserà il numero di Avogadro, ossia il numero di atomi presente in un grammo-atomo di materia: 602.200.000.000.000.000.000.000 (6x10^23).C'è anche nella ricerca un dato interessante per i molti discorsi che si sentono fare in tema di privacy ormai da qualche anno: per la prima volta nel 2007, la quantità di byte generata dall'attività umana e automatica in rete è stata superiore della capacità complessiva di memorizzazione. Ossia nel 2007 sono stati prodotti e si sono generati una quantità di dati superiore alla capacità dei supporti di memorizzazione globalmente prodotti.

Secondo lo studio citato, a partire dal 2015 la maggior parte dei dati generati dal funzionamento della rete, tipicamente i file di log, sarà necessariamente, per motivi tecnici ed economici, transeunte, verrà cancellata nel giro di pochi minuti. Se le previsioni fatte si dovessero verificare, gli utenti della rete ritornerebbero ad essere di fatto anonimi, come prima dell'avvento dell'ICT, quando i dati personali erano difficili da raccogliere, da memorizzare e da organizzare.

Andrea Rossetti
Filosofia del diritto / Informatica giuridica
Università Milano-Bicocca
16 Commenti alla Notizia La mole dei dati salverà la privacy?
Ordina
  • Non sono molto nella materia, ma penso che a rigor di logica valga il concetto espresso dal grande Guzzanti nell'"Abboriggeno, ma io e te,..."
    Ovvero, ok, ci sono 45 Gb di roba mia in giro. Mah, a meno che non ci sia un folle che abbia la voglia di lavorare proprio su di me (e per un'azienda questo penso sia improponibile: il tempo di un'operatore costa tanto), potrebbe essere difficile che sia etichettabile in modo utile.
    Quello che ho scritto è vero nel caso di mole di dati non strutturata nel modo che vuole la fantomatica azienda. E' chiaro che se un'azienda ha il DB delle transazioni delle carte di credito di N utenti la cosa cambia radicalmente. Ma penso che quando si parla di moli di dati così grandi, si faccia riferimento a tutto ciò che di noi circola in rete: log, mail, post in forum, sitarelli vari, foto su flickr, etc. E accostare tutto in modo automatico, con una percentuale sufficientemente bassa di errore, in modo da ricavare dati utili per una azienda, non penso sia così facile. Ma spero di sbagliarmi.
    Certo quando il web sarà semantico le cose forse cambieranno, ma siamo sicuri che tutti i contenuti web si adatteranno?
  • I contenuti si stanno già adattando: XML è lo strumento che la Rete ha 'inventato' per consentirci di 'istruirla'.
    Visto che la Rete è più lenta di noi ad adattarsi al linguaggio dell'altro, è toccato a noi imparare il suo linguaggio.
    I tag sono il primo embrione si semantica che stiamo 'appiccicando' a ciò che scriviamo.
    Stiamo insegnando alla Rete bambina i primi concetti.
  • Questa cosa è molto molto interessante secondo me. E' un po' la nuova frontiera dell'A.I.
    Ripeto, non ne so molto e mi piacerebbe saperne di più. XML è il modo con cui si può fare semantica, ma siamo sicuri che prima o poi tutti (o quasi) i contenuti seguiranno questa strada? E i tag in sè e per sè, sono sufficienti per considerare il web "sulla strada del semantico"? Mi pare di ricordare che il web semantico si basi su triplette di concetti o qualcosa del genere, e permetterebbe di fare cose spettacolari come navigare semanticamente in giro per la rete, posto però che tutti i contenuti della rete siano "taggati" allo stesso modo da triplette, cosa che secondo me è un ostacolo non da poco
  • Dimentichiamoci per ora delle triplette.

    La semantica ragiona su un livello superiore a quello delle parole.
    I suoi mattoni sono i concetti, che possono essere ad noi rappresentati in modi diversi e con diverse parole, ed ancora in modi diversi a seconda della lingua utilizzata.

    Nel linguaggio della filosofia si parla anche di Categorie.

    Se fossimo in grado di comunicare identificando e trasmettendo direttamente i concetti, il linguaggio e la scrittura, così come li conosciamo, non servirebbero più (a meno degli aspetti estetici, per dare una forma ed una musicalità ai concetti, e trasmettere sensazioni - qui ho estremizzato un po', lo so!).

    I tag XML servono per associare alle nostre parole un contesto per la loro corretta interpretazione e comprensione.

    Ma le sensazioni sono una cosa prettamente umana: la Rete ha un destino diverso dal nostro, e penso che le peculiarità del nostro modo di comunicare non le interesseranno.
  • Echelon se è davvero strutturato come sembra ha lo stesso identico problema, infatti non sono mai riusciti (x quanto ne sappiamo noi) a beccarci un terrorista ma solo a mettere i bastoni tra le ruote alle multinazionali europee a favore di quelle USA. Deluso

    ovvero nonstante la mole di dati e la tecnologia che allora era diversa ed a fare le dovute proporzioni ernomemente meno potente (Moore) non hanno impedito l'ABuso del mezzo.

    come dire: mica vero
    pure i nostri archivi dei tribunali sono in pessimo stato (e parliamo di roba cartacea) e disorganizzati ma alla fine ci si raccapezza comunque.

    buono invece il principio (o la speranza) che la privacy possa essere tutelata da tecnologie e metodi instrinsecamente sicuri (come i nuovi database genetici), ma la mole di dati NON è un meccanismo intrinsecamente sicuro.
    non+autenticato
  • A parte il fatto che anche la tecnologia della memorizzazione procede, e le memorie olografiche e quantistiche diverranno in tempi umani commercialmente disponibili (e chissà cos'altro si staranno inventando mentre scrivo!), rammento che l'informazione è sintesi.

    Al momento siamo in grado di memorizzare e correlare soltanto caratteri e parole, ma un domani saremo in grado di memorizzare e correlare concetti.

    Sostanzialmente, emergeranno delle categorie, dei cluster, a cui le nostre informazioni apparterranno, senza che per questo vi sia la necessità di memorizzare ogni bit che ha portato alla categorizzazione.

    I concetti si rafforzeranno e modificheranno dinamicamente nel tempo.

    Ad oggi, per indicare quale sia l'approccio di una persona alla politica, o la sua visione mistica della vita, non citiamo tutte le parole dette dalla persona nella sua vita, ma utilizziamo termini come democratico, comunista, cristiano, buddista, e così via.

    Se devo descrivere il comportamento dell'universo ad uno studente, non cerco di elencargli la posizione di ogni atomo esistente, ma parto da leggi e relazioni evinte e consolidate nel tempo tra gli oggetti stessi.

    Il Principio di Archimede si applica ugualmente bene in aria, acqua ed acciaio fuso, e l'esempio più noto di sintesi è forse quello della legge di Einstein sull'equivalenza tra massa ed energia.

    Dubito proprio che la nostra privacy si possa riscoprire nell'eccesso di informazione.
    L'unico modo sarà quello di associare il nostro nome a più concetti concorrenti ed antitetici, cosa peraltro molto difficile: se preferisco i cibi dolci, non posso comperare anche altrettanti cibi salati per mandare in confusione il sistema di tracciamento del supermercato, o votare partiti opposti alle elezioni politiche.

    E si torna sempre alla questione di base: la privacy non è assenza di informazione, bensì controllo effettivo sull'utilizzo che viene fatto dell'informazione che mi appartiene.
  • quoto in pienoOcchiolino
    non+autenticato
  • bella rispostaSorride complimenti
    non+autenticato
  • - Scritto da: andy61
    > A parte il fatto che anche la tecnologia della
    > memorizzazione procede, e le memorie olografiche
    > e quantistiche diverranno in tempi umani
    > commercialmente disponibili (e chissà cos'altro
    > si staranno inventando mentre scrivo!), rammento
    > che l'informazione è
    > sintesi.
    >
    > Al momento siamo in grado di memorizzare e
    > correlare soltanto caratteri e parole, ma un
    > domani saremo in grado di memorizzare e correlare
    > concetti.

    Concetti che per essere espressi necessitano di parole..ovvero byte e quindi bit...
    >
    > Sostanzialmente, emergeranno delle categorie, dei
    > cluster, a cui le nostre informazioni
    > apparterranno, senza che per questo vi sia la
    > necessità di memorizzare ogni bit che ha portato
    > alla
    > categorizzazione.

    Quindi ulteriori informazioni che conterranno la sintesi di concetti, i quali però per essere spiegati dovranno necessariamente fare uso di bit memeorizzati da qualche parte...
    >
    > I concetti si rafforzeranno e modificheranno
    > dinamicamente nel
    > tempo.
    >
    Quindi altra indormazione da memorizzare, a meno di non perdere la cronistoria e la spiegazione dell'evoluzione...

    > Ad oggi, per indicare quale sia l'approccio di
    > una persona alla politica, o la sua visione
    > mistica della vita, non citiamo tutte le parole
    > dette dalla persona nella sua vita, ma
    > utilizziamo termini come democratico, comunista,
    > cristiano, buddista, e così
    > via.
    >
    Poi però per spiegare che so il termine cristiano bisogna partire dalla genesi (Bibbia) per poter giustificare l'esistenza del cristiano...il quale poi a sua volta si suddivide in cattolico apostolico romano, non romano, evangelico, protestante etc. etc., e ognuna delle sottocategorie per essere spiegata necessita di altra informazione che per essere chiara non può essere sintetica, pena non capire niente...


    > Se devo descrivere il comportamento dell'universo
    > ad uno studente, non cerco di elencargli la
    > posizione di ogni atomo esistente, ma parto da
    > leggi e relazioni evinte e consolidate nel tempo
    > tra gli oggetti
    > stessi.
    >

    Può essere giusto per uno studente alle prime armi, ma lo "studente" non si ferma certo a definizioni semplici visto che l'esistenza dell'atomo lo porterà presto o tardi allo studio dell'atomo e di come si muove nell'universo...
    Traduzione l'informazione comunque deve essere conservata...

    > Il Principio di Archimede si applica ugualmente
    > bene in aria, acqua ed acciaio fuso, e l'esempio
    > più noto di sintesi è forse quello della legge di
    > Einstein sull'equivalenza tra massa ed
    > energia.
    >
    Si il concetto è semplice... ma... me lo spiegheresti in due righe da max 20-25 parole ovviamente dimostrandomi la veridicità della formula?

    > Dubito proprio che la nostra privacy si possa
    > riscoprire nell'eccesso di
    > informazione.
    > L'unico modo sarà quello di associare il nostro
    > nome a più concetti concorrenti ed antitetici,
    > cosa peraltro molto difficile: se preferisco i
    > cibi dolci, non posso comperare anche altrettanti
    > cibi salati per mandare in confusione il sistema
    > di tracciamento del supermercato, o votare
    > partiti opposti alle elezioni
    > politiche.
    >
    Infatti e sono l'eccezione che potrebbe mandare il tilt il supermercato da te ipotizzato: mi piaccio i dolci e i cibi salati io pari misura, per cui sintetizzare le mie preferenze potrebbe creare paradossi non da poco...

    > E si torna sempre alla questione di base: la
    > privacy non è assenza di informazione, bensì
    > controllo effettivo sull'utilizzo che viene fatto
    > dell'informazione che mi
    > appartiene.
    Qui potresti aver ragione, ma c'è un ma.. è vero che i sistemi di memorizzazzione possono incrementare la quantità di dati incamerata, ma è pur vero che esistono dei limiti fisici che sono insuperabili, mentre la quantità di informazione prodotta da ogni individuo tende ad infinito...
    Arriveà il momento che non sarà più possibile trattenere ogni singola informazione, per quanto sistetica, sulla vita di un individuo ed occorrerà cancellare molto spesso i dati, overo sarà inutile registrarli!
    Le tecniche olografiche da te citate potranno anche memorizzare quantità ingenti di dati, ma hanno anche loro un limite, più grande delle tecniche magnetiche, ma sempre un limite...

    E poi scusa: se è vero che alla nascita di un bambino si producono 250GB di dati, quanti ne produrrà in tutta la sua vita? Facciamo 1TB (stima al ribasso basata sul fatto che uso mediamente un 100 Cd annui per i miei dati di foto, aggiornamenti OS, lettere, filmati, registrazione dei dati dei miei acqusiti, la mia contabilità e senza considerare tutto quello che può essere registrato ogni volta che telefono, uso bancomat, carte di credito, computer...) all'anno per 80 anni?
    questo per 8 miliardi di individui? E dato che i vari governi sono piuttosto paurosi e quaindi si scambieranno i dati moltiplicato ancora per le volte che saranno duplicati?
    A quel punto penso proprio che il tempo perso a capirci qualcosa sia superiore a quello usato per produrle, le informazioni!
    non+autenticato
  • L'Informazione è sintesi.

    In soldoni, non hai bisogno di memorizzare la posizione di ogni cellula di tutti i cactus, per prevedere che se li tocchi ti pungerai.

    L'informazione in questo caso è che i cactus pungono.

    E per saperlo non ho bisogno di sapere in ogni momento dove siano ubicati tutti i cactus dell'universo.

    La volta che ho raccolto sufficienti dati per scoprirlo, i dati che ho utilizzato non mi servono più.
  • Possono fare le previsioni che vogliono ma la storia della tecnologia dimostra esattamente il contrario, che se serve un "coso" che faccia archiviazione di dati qualcuno lo farà... Si fa i conti con i numeri ma non con la ricerca scientifica (IMHO)
    non+autenticato
  • fai bene a non crederci i computer servono proprio a questo.... eseguire calcoli e archiviare dati!!!siamo nel 2008, 10 anni fa internet quasi non esisteva! ora io sono in bolivia(uno dei paesi + poveri e arretrati del sud america) a santa cruz de la sierra c'e' un internet point ogni angolo! il tempo passa la tecnologia migliora e i log sono molto redditizi!!!
    non+autenticato
  • - Scritto da: BHA
    > fai bene a non crederci i computer servono
    > proprio a questo.... eseguire calcoli e
    > archiviare dati!!!siamo nel 2008, 10 anni fa
    > internet quasi non esisteva! ora io sono in
    > bolivia(uno dei paesi + poveri e arretrati del
    > sud america) a santa cruz de la sierra c'e' un
    > internet point ogni angolo! il tempo passa la
    > tecnologia migliora e i log sono molto
    > redditizi!!!


    Quoto.
    non+autenticato
  • casomai il numero di avogadro è 6,02*10^23, non 6,02*1023.
    saluti
    non+autenticato
  • hehehe ma P.I. ha problemi a scrivere "^"Sorride e stavolta non è stato Annunziata!Sorride
    non+autenticato
  • Come scrive luca: e' "Avogadro", con una "r" di menoOcchiolino

    Questa necessita' giornalistica di relazionare numeri tra discipline indipendenti proprio non la sopporto...questo nonstante la mia eta' sia pari all'undicesimo semiprimo! Ma dalle mode solo il tempo guarisceOcchiolino

    - Scritto da: luca
    > casomai il numero di avogadro è 6,02*10^23, non
    > 6,02*1023.
    > saluti
    non+autenticato
 

La soluzione ideale per Worry-Free Business Security 7.

Twitter Begins

Twitter Begins

Una guida su Twitter, il servizio di microblogging che sta conquistando tutti anche in Italia. Scritta con un linguaggio semplice e alla portata di tutti, mette in evidenza i punti [...]