Re: Charset italiano

Alessandro Pellizzari Mon, 14 May 2007 06:30:03 -0700

Il giorno lun, 14/05/2007 alle 14.55 +0200, Enrico La Cava ha scritto:

> Grazie per le delucidazioni, non sapevo che esistessero varie versioni
> di UTF, ma cosa cambia?


L'UTF-8 rappresenta i caratteri "normali" con un solo byte, e ha una
codifica apposta che usa da 2 a 6 (mi pare) byte per i caratteri piu`
complessi.
L'UTF-16 esiste in due versione: LSB e MSB. Usa da 2 a 4 (o 5?) byte per
rappresentare i caratteri, e le due versioni variano per l'ordine dei
byte nello stream.
L'UTF-32 e` una rappresentazione completa: usa 4 byte (una long-word)
per ogni carattere, in modo da coprire tutti i 4 miliardi di caratteri
di Unicode (2^32).

L'UTF-8 e` il piu` usato perche` (in occidente) il 95-100% dei testi
viene rappresentato con un solo byte, e la maggior parte delle accentate
e simboli con 2 byte, quindi occupa meno spazio.
Gia` per l'arabo, il russo e il giapponese si usa piu` spesso UTF-8,
perche` gran parte dei loro caratteri vengono rappresentati con 2 byte,
e solo pochissimi con 4.

L'UTF-32 non si usa praticamente mai perche` occupa un sacco di spazio.

Bye.


-- 
Alessandro Pellizzari



-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
[EMAIL PROTECTED] con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a [EMAIL PROTECTED]

To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]

Re: Charset italiano

Rispondere a