Luca Annunziata

Codifiche, Unicode sorpassa ASCII

Lo certifica Google: ora Ŕ la codifica pi¨ usata su Internet. Un successo annunciato e che migliora l'interoperabilitÓ del web

Roma - ╚ passato poco più di un mese dal rilascio della versione 5.1 di Unicode, e ora per il consorzio che sostiene lo standard per la codifica universale c'è un'altra buona notizia: secondo i dati diffusi da Google, uno dei principali sostenitori online del formato, Unicode è la codifica più spesso impostata per le pagine web analizzate del motore. Un primato che per il momento è risicato, ma che potrebbe presto diventare ben più consistente.

L'andamento delle codifiche sui siti web secondo Google"Proprio lo scorso dicembre è stata raggiunta una tappa importante nell'evoluzione del web - si legge sul blog ufficiale di Google - Per la prima volta abbiamo notato che la codifica più spesso adottata dalle pagine è Unicode, che per una curiosa coincidenza ha superato ASCII e Western European nell'arco di 10 giorni". Da tempo Google adotta Unicode per i propri servizi, e anzi provvede a "tradurre" le pagine che i suoi crawler individuano e che presentano altre codifiche, prima di indicizzarle nei suoi database.

Da notare anche la velocità con la quale Unicode sta venendo gradualmente introdotta sui siti: la curva della crescita è molto ripida, e in pochi mesi si potrebbe osservare un notevole aumento nel numero di siti che adottano questa codifica.
ASCII e Western Europe sono dunque destinati all'oblio: nel primo caso la codifica prevede praticamente solo i caratteri dalla A alla Z senza neppure gli accenti, nel secondo ci sono gli accenti ma mancano glifi e ideogrammi. Unicode, invece, grazie alla sua natura, supporta i simboli e gli alfabeti delle lingue più disparate: coreano, cinese, giapponese, arabo, ma anche le lingue nordeuropee o il russo. In totale sono oltre 100mila i simboli catalogati da Unicode, e crescono ad ogni nuova release: solo nell'ultima ci sono stati 1.624 "nuovi ingressi".

A dimostrazione dell'universalità di Unicode, c'è da registrare anche il calo di altre codifiche come quella cinese (GB2312) o giapponese (SJIS), entrambe riferite a lingue caratterizzate dall'uso di ideogrammi per la scrittura: ma la natura espandibile ed aggiornabile di Unicode, e del suo gemello Universal Character Set, fa sempre nuovi proseliti tra programmatori e webmaster, ben lieti di semplificarsi il lavoro e nel contempo rendere sempre più universale la fruizione del proprio lavoro.

Luca Annunziata
34 Commenti alla Notizia Codifiche, Unicode sorpassa ASCII
Ordina
  • L'Unicode Transformation Format, per esempio UTF-8 non è alternativo all'ASCII è una sua estensione, nel senso che serve proprio se uno deve usare dei caratteri diversi da quelli della tabella ASCII, estensibile quando MSB è a 1 ( e ciò ci fa intuire che probabilmente ci avevano già pensato quando hanno scritto ASCII).

    Non mi sembra quindi completamente corretto comparare ASCII con UTF-8, probabilmente quella tabella significa che se una volta su internet si trovavano molti documenti ASCII, con la scomparsa dei terminali carattere, si tende a trovare molto UNICODE, come è ovvio.

    Tra l'altro se capitasse di consultare i documenti UTF-8 con terminali testuali, la maggior parte del testo (in inglese) sarebbe comunque intellegibile.

    Per inciso ... vent'anni fa gli orientali si erano creati i loro standard che ora evidentemente non servono più.
    non+autenticato
  • - Scritto da: il gelato che uccide

    > L'Unicode Transformation Format, per esempio
    > UTF-8 non è alternativo all'ASCII è una sua
    > estensione, nel senso che serve proprio se uno
    > deve usare dei caratteri diversi da quelli della
    > tabella ASCII, estensibile quando MSB è a 1 ( e

    No, non e` un'evoluzione.
    E` che UTF8 e` stato pensato e progettato in modo da essere retrocompatibile con ASCII.

    > ciò ci fa intuire che probabilmente ci avevano
    > già pensato quando hanno scritto
    > ASCII).

    No.
    Quando e` stato definito il codice ASCII i byte erano a 7 bit, e li hanno sfruttati tutti.
    Poi i byte sono diventati a 8 bit (e qualcuno ha provato a portarli anche a 9 ma non ha avuto successo), e IBM, Microsoft, ecc. hanno esteso il codice ASCII in vari modi: con accentate, con simboli grafici per disegnare le "pseudofinestre" o con i semi delle carte per i giochi, ecc.

    > Non mi sembra quindi completamente corretto
    > comparare ASCII con UTF-8, probabilmente quella
    > tabella significa che se una volta su internet si
    > trovavano molti documenti ASCII, con la scomparsa
    > dei terminali carattere, si tende a trovare molto
    > UNICODE, come è
    > ovvio.

    La tabella significa che i server dei siti impostano come codifica delle pagine "charset=utf-8" invece di "charset=ascii".
    Apache su praticamente tutte le distribuzioni Linux lo fa da 2-3 anni a questa parte, ma poi sugli script in PHP, per esempio, lo puoi cambiare con header().

    > Tra l'altro se capitasse di consultare i
    > documenti UTF-8 con terminali testuali, la
    > maggior parte del testo (in inglese) sarebbe
    > comunque
    > intellegibile.

    E il resto sarebbero caratteri cubettosi.Sorride

    > Per inciso ... vent'anni fa gli orientali si
    > erano creati i loro standard che ora
    > evidentemente non servono
    > più.

    Anche gli occidentali. Vedi i vari ISO-8859-x, le mappe 850 su MS-Dos, ecc.

    D'altronde in giapponese ci sono oltre 30.000 kanji, più tutti quelli inventati per i cognomi. Servono almeno 15 bit (32768) per rappresentarli tutti, quindi logicamente si sono fatti il loro formato a 16 bit (65536 possibilita`).
    Unicode da` una codifica estendibile a 4 miliardi di caratteri, riuscendo a includere tutte le lingue della Terra e lasciando spazio anche per tutto il resto.
    UTF-8 e` solo una delle possibili rappresentazioni di Unicode, a lunghezza variabile.

    Bye.
    Shu
    1232
  • - Scritto da: Shu
    > > ciò ci fa intuire che probabilmente ci avevano
    > > già pensato quando hanno scritto
    > > ASCII).
    >
    > No.
    > Quando e` stato definito il codice ASCII i byte
    > erano a 7 bit, e li hanno sfruttati
    > tutti.
    > Poi i byte sono diventati a 8 bit (e qualcuno ha
    > provato a portarli anche a 9 ma non ha avuto
    > successo)

    Neanche.

    Agli albori dell'informatica non c'era una lunghezza precisa dei byte e ogni computer aveva i suoi. Ricordo di un computer con byte da 27 bit...

    Solo in seguito ci si è uniformati su 8 bit: né pochi né troppi. Anche le tabelle di codifica dei caratteri, che prima erano proprietarie, sono state uniformate e ufficialmente standardizzate da enti internazionali.

    In particolare la codifica ASCII, che è diventata poi la prevalente, usava solo 7 bit lasciando l'ultimo come controllo di parità per verificare la corretta trasmissione. Solo quando i computer sono diventati abbastanza potenti da usare tecniche più raffinate si è cominciato ad usare l'ottavo bit.
  • > No, non e` un'evoluzione.
    > E` che UTF8 e` stato pensato e progettato in modo
    > da essere retrocompatibile con
    > ASCII.
    > ...
    > Quando e` stato definito il codice ASCII i byte
    > erano a 7 bit, e li hanno sfruttati
    > tutti.
    > Poi i byte sono diventati a 8 bit (e qualcuno ha
    > provato a portarli anche a 9 ma non ha avuto
    > successo), e IBM, Microsoft, ecc. hanno esteso il
    > codice ASCII in vari modi: con accentate, con
    > simboli grafici per disegnare le "pseudofinestre"
    > o con i semi delle carte per i giochi,
    > ecc.
    >

    Si erano i bei tempi dell'IBM XT a 4.77 Mhz, conosco bene.
    E conosco anche le connessioni TTY a 7 bit.

    In effetti hai ragione probabilmente non ci hanno pensato, semplicemente hanno realizzato il set per inviare il tutto con il minor numero di bit su TeleTYpe ( cioè a 7 bit), comunque quando la connessione è diventata a 8 bit quel bit in più è immediatamente stato usato come RESERVED.

    UTF-8 è un ottima codifica se stai in occidente, in quanto il testo è comunque leggibile è una evoluzione (in altri posti si usano appunto differenti UTF ma sempre unicode).

    La mia puntualizzazione era più "filosofica", voglio infatti dire che tutto ciò non mi sembra una contrapposizione all'ASCII ma appunto una estensione logica, mentre è una contrapposizione con altri tipi di codifiche ( come l'extended set di IBM o i vari ISO) che hanno risolto alcuni problemi nel frattempo.

    Tant'è nel caso dell'HTML e di una pagina scritta in ASCII, è assolutamente indifferente scrivere UTF-8 o ASCII vista la retrocompatibilità con tante possibilità in più e questa non può che essere vista come una evoluzione, non sostituzione.

    Un simile atteggiamento è normale quando la gente non usa più internet come trent'anni fa quando si scriveva solo in inglese con VI in linea di comando, così come è normale avere implementato il MIME per la posta elettronica che permette di inviare mail diverse dal semplice testo con c&p di uuencode e uudecode.
    non+autenticato
  • Ma soprattutto... chissenefrega =)
    non+autenticato
  • - Scritto da: Ginetto
    > Ma soprattutto... chissenefrega =)

    Ignorance is ignorance Annoiato
    non+autenticato
  • - Scritto da: Ginetto
    > Ma soprattutto... chissenefrega =)
    post utile il tuo complimenti
    non+autenticato
  • Una vera dimostrazione di apertura mentale Occhiolino
    non+autenticato
  • Già, e tu ti sei pure preso la briga di sciverci un commento. Sei un genio! =)
    non+autenticato
  • Ave.

    CHI ha deciso che costoro (Adobe Systems, L'Agence intergouvernementale de la Francophonie, Apple Computer, Basis Technology, Denic e.G., Google, Government of India - Ministry of Information Technology, Government of Pakistan - National Language Authority, HP, IBM, Justsystem, Microsoft, Monotype Imaging, Oracle, SAP, Sun Microsystems, Sybase, The University of California at Berkeley, Yahoo, plus well over a hundred Associate, Liaison, and Individual members) sono coloro che decidono in mia vece?

    Non credo che qualcuno conosca la risposta a questa mia domanda.

    A presto
    Nilok
    Nilok
    1925
  • decidono cosa in tua vece ?
    non+autenticato
  • decidono su cosa???
  • - Scritto da: Nilok
    > Ave.
    >
    > CHI ha deciso che costoro (Adobe Systems,
    > L'Agence intergouvernementale de la Francophonie,
    > Apple Computer, Basis Technology, Denic e.G.,
    > Google, Government of India - Ministry of
    > Information Technology, Government of Pakistan -
    > National Language Authority, HP, IBM, Justsystem,
    > Microsoft, Monotype Imaging, Oracle, SAP, Sun
    > Microsystems, Sybase, The University of
    > California at Berkeley, Yahoo, plus well over a
    > hundred Associate, Liaison, and Individual
    > members) sono coloro che decidono in mia
    > vece?
    >
    > Non credo che qualcuno conosca la risposta a
    > questa mia
    > domanda.
    >
    > A presto
    > Nilok

    Non sono sicuro di capire. Vivi in una società che cerca di dirti anche con che mano ti devi grattare il culo e tu percepisci come una grave violazione della tua libertà individuale l'introduzione di un sistema di codifica dei caratteri un po' più versatile?
    Andiamo bene....
    non+autenticato
  • Hai ragione ! Ad esempio ora dovrò grattarmi il culo con la mano destra. L'importante è, però, non grattare quello degli altri !
    In ogni caso mi pare di percepire che c'è ancora qualcuno con la convinzione di avere un potere decisionale.
    Ogni tanto non guasterebbe uscire dal buncker.
    non+autenticato
  • - Scritto da: Lucianino
    > Hai ragione ! Ad esempio ora dovrò grattarmi il
    > culo con la mano destra. L'importante è, però,
    > non grattare quello degli altri
    > !
    > In ogni caso mi pare di percepire che c'è ancora
    > qualcuno con la convinzione di avere un potere
    > decisionale.
    > Ogni tanto non guasterebbe uscire dal buncker.

    A parte che si scrive bunker, se non ti sta bene fai una cosa: crea una multinazionale, scala i vertici dell'economia nel settore IT mondiale e chiedi ai tuoi programmatori di creare un sistema di codifica (o qualunque altra cosa) versatile e robusto come Unicode.
    Dimostra la sue potenzialità, crea alleanze forti e vedi i risultati.

    Credi davvero che TU DA SOLO puoi decidere cosa GLI ALTRI devono metterti a disposizione? Non ti va bene una cosa? Fattela da solo e usala.

    Chi sta sul palcoscenico decide cosa recitare, se a te non sta bene ti alzi e te ne vai.
    non+autenticato
  • >
    > Non credo che qualcuno conosca la risposta a
    > questa mia
    > domanda.
    >

    No ... nessuno la conosce ... però c'è una soluzione !

    Smetti di usare i prodotti di

    > Adobe Systems,
    > L'Agence intergouvernementale de la Francophonie,
    > Apple Computer, Basis Technology, Denic e.G.,
    > Google, Government of India - Ministry of
    > Information Technology, Government of Pakistan -
    > National Language Authority, HP, IBM, Justsystem,
    > Microsoft, Monotype Imaging, Oracle, SAP, Sun
    > Microsystems, Sybase, The University of
    > California at Berkeley, Yahoo, plus well over a
    > hundred Associate, Liaison, and Individual
    > members

    e sarai più felice !
    non+autenticato
  • >
    > Non credo che qualcuno conosca la risposta a
    > questa mia
    > domanda.
    >
    E allora perchè fai domande a cui nessuno può rispondere? Vuoi farci perdere tempo?

    > A presto
    Con questi presupposti, meglio di no!

    > Nilok

    Ciao
    176
  • IO, problemi?
    non+autenticato
  • - Scritto da: Nilok
    > Ave.
    >
    > CHI ha deciso che costoro [..] sono coloro che decidono in mia vece?

    Gli Xenu?
    non+autenticato
  • Nel grafico è indicato (in azzurro) UTF-8, che è UGUALE al codice ASCII.
    Quindi, il superamento NON SEMBRA essere dovuto tanto ad una necessità di avere più caratteri, quanto all'utilizzo di sistemi di generazione delle pagine web (indovinate voi), che FORZANO l'utilizzo di UTF-8.
    non+autenticato
  • UTF-8 è solo un modo di codificare Unicode, ad esempio esiste anche UTF-16 e perfino un UTF-32!
    UTF-8 è comodo perché i caratteri che coincidono con quelli ASCII puri vengono codificati con un solo byte, mentre gli altri sono codificati con due o più byte (mentre UTF-16 usa sempre 2 byte a carattere e UTF-32, invece, 4).
    -----------------------------------------------------------
    Modificato dall' autore il 07 maggio 2008 08.25
    -----------------------------------------------------------
  • Ti correggo, UTF-16 è anch'esso a lunghezza variabile:
    http://en.wikipedia.org/wiki/UTF-16/UCS-2
    non+autenticato
  • Sì hai ragione, scrivendo non mi sono accorto di aver detto una fesseria riguardo ad UTF-16!
  • ma documentati per favore... hai una vaga idea di come sia fatto UTF-8? Sei mai andato oltre il carattere 127?
  • - Scritto da: pentolino
    > ma documentati per favore... hai una vaga idea di
    > come sia fatto UTF-8? Sei mai andato oltre il
    > carattere
    > 127?

    Visto e considerato che nel suo messaggio ha usato una e accentata, direi che oltre il 127 ci e' andato.

    Io invece sono all'antica e depreco l'utilizzo di caratteri oltre il 127, e nelle mie paginette html, utilizzo sempre gli è e non mi sogno certo di ficcare una lettera accentata nel testo, unicode o non unicode!
    non+autenticato
  • - Scritto da: Anonimo
    >
    > Visto e considerato che nel suo messaggio ha
    > usato una e accentata, direi che oltre il 127 ci
    > e'
    > andato.

    il fatto che l' abbia usata non implica necessariamente che sia andato oltre il 127 in UTF-8 (per esempio se ha usato windows che di default usa un altro encoding), quindi il dubbio che possa avere apprezzato le "sottili" differenze tra ASCII e UTF-8 credo che sia legittimo...

    >
    > Io invece sono all'antica e depreco l'utilizzo di
    > caratteri oltre il 127, e nelle mie paginette
    > html, utilizzo sempre gli è e non mi sogno
    > certo di ficcare una lettera accentata nel testo,
    > unicode o non
    > unicode!

    libero di farlo, io preferisco usare UTF-8 e tutte le lettere che mi pare; poi in certi contesti se so che usare UTF-8 non è fattibile uso ASCII ed evito le accentate e simili. Insomma non voglio aprire una guerra di religione, non c'è nulla di male ad usare ASCII, soprattutto quando si scrive in inglese
  • Preferisco anche io utilizzare le codifiche html ma rimangono sempre dei problemi:
    - un applicativo web deve sempre controllare e correggere il testo inserito dall'utente a cui non riuscirai mai a far capire cosa significhi "è" e perche' debba inserire i testi in quel modo
    - se vuoi fare un sito che utilizzi XSL devi smarronarti a definire tutte le entita' che sono conosciute da HTML e non da XSL (e' vero che fatto una volta poi lo copi)
    non+autenticato
  • In tal caso continua pure a utilizzare i tuoi 127 bimbi e salutaci i dinosauri che circolano per le tue lande.
    non+autenticato
  • - Scritto da: Paolini
    > In tal caso continua pure a utilizzare i tuoi 127
    > bimbi e salutaci i dinosauri che circolano per le
    > tue
    > lande.

    quindi ne fai solo un discorso di novità e non di effettiva necessità...
    non+autenticato
  • Con l'espandersi di Internet in Cina, era ovvio che succedesse.
  • Be', i cinesi potevano sempre optare per uno standard tutto loro, magari non utilizzabile per rappresentare anche caratteri occidentali... e` molto positivo che sia andata cosi`. Ma e` positivo in generale, non solo riguardo alla Cina.
  • quoto in pieno
  • - Scritto da: Luco, giudice di linea mancato
    > Con l'espandersi di Internet in Cina, era ovvio
    > che
    > succedesse.
    non piacerà agli americani?
    non+autenticato
  • - Scritto da: Luco, giudice di linea mancato
    > Con l'espandersi di Internet in Cina, era ovvio
    > che
    > succedesse.

    La Cina, come vedi dal grafico, ha già una sua codifica.
    L'esplosione di UTF-8 è data sia dalle impostazioni di default dei webserver, che hanno costretto gli utenti ad adeguarsi, sia dal fatto che permette di risparmiarsi molta fatica in fase di programmazione di siti multilingua: non devi convertire i dati del DB ogni volta per una lingua diversa, o memorizzare da qualche parte la codifica del file. Lo prendi e lo sbatti al client, tanto è tutto unificato.

    Insomma, sia necessità che virtù.

    Bye.
    Shu
    1232