Re: bash et UTF-8

Laurent Giroud Mon, 02 Aug 2004 18:26:31 -0500

> > Les codes ISO 8859-X sont des codes locaux, qui ne permettent pas de gérer 
> > les
> > textes internationaux.
> 
> Oui, enfin, rares sont les gens qui écrivent des textes mêlant le grec, 
> l'arabe et le chinois.


Rares ?
La quasi totalité des sud-coréen (99% d'entre eux ont l'ADSL) mélangent 
anglais et Hangul dans leurs messages.
Les japonais mélangent anglais et kana/kanji. Un nombre croissant 
d'ingénieurs et techniciens chinois le font aussi, je ne parle pas non plus 
des indiens (qui sont moins nombreux à être sur l'internet).

Et enfin, tous les occidentaux qui sont de plus en plus nombreux amenés à 
interagir avec des chinois ou des japonais (et j'oublie les pays arabes qui 
pour la plupart sont aussi francophones).

Ca fait déjà plusieurs millions de personnes qui doivent jongler avec deux 
encodages différents au minimum, il ne me semble pas qu'on puisse parler de 
rareté.

Même si ils n'utilisent pas les quatre langages que tu as mentionné en même 
temps, ils ont nécessairement besoin d'utiliser unicode pour échanger des 
données entre eux, sinon ils doivent changer de page de code à la main avant 
de passer d'un langage à l'autre, ce qui est totalement contreproductif.

> La grande majorité des lecteurs de cette liste 
> n'écrivent qu'en français et en anglais. Unicode est certes une meilleure 
> technologie mais c'est contre-productif que d'essayer de cuplabiliser les 
> gens 
> en leur faisant croire qu'ISO-8859 ne marche pas.

Plusieurs choses :
1 - je n'ai pas fait croire à qui que ce soit qu'ISO-8859-15 ne marche pas. Si 
ce que j'ai dit le laisse penser, indique moi précisément où, je me 
corrigerais car ce serait effectivement dommage que ce soit compris ainsi.
2 - je ne vois pas en quoi j'ai cherché à culpabiliser qui que ce soit, j'ai 
évoqué l'emploi d'un encodage qui simplifie *tous* les problèmes de 
conversion entre langages et j'en ai fait la pub, mais je ne renie pas 
l'intérêt de l'ISO-8859-15 pour les européens par rapport à l'ASCII. Là 
encore, si ce que j'ai dit le laisse penser dit moi en quoi et je me 
corrigerais.
3 - le fait que la grande majorité des lecteurs de la liste n'utilisent que 
l'anglais et le français est il suffisant pour les priver de l'information 
qu'unicode est un meilleur standard ? Je ne le pense pas, et ce d'autant plus 
que je répondais à la suggestion faite par Meizig au posteur originel, en 
expliquant que sa proposition (bien que tout à fait censée) ne convenait pas 
au problème rencontré.

> > Il vaut mieux passer à l'encodage Unicode UTF-8 qui permet de coder tous 
> > les
> > symboles internationaux de 8 à 32 bits
> 
> Je suis d'accord pour faire de la publicité pour Unicode mais, alors, il 
> faut 
> savoir de quoi on parle. Cette phrase "de 8 à 32 bits" ne veut absolument 
> rien 
> dire.

Pourquoi une telle aggressivité ?
Remplace donc "de" par "sur" et tu comprendras qu'il s'agit juste d'une erreur 
due à une rédaction trop rapide.
Pour avoir étudié Unicode en long et en large, ainsi que toutes les 
discussions des listes developer debian relatives à son intégration 
progressive dans Debian, je pense que je peux m'estimer relativement bien 
informé à ce sujet.

D'ailleurs pour être tatillon, c'est sur 31 bits max qu'un caractère unicode 
UTF-8 peut être encodé.
Toutes mes excuses pour cette erreur.

> > Actuellement, c'est encore imparfaitement géré par Linux et un paquet de
> > programmes libres, 
> 
> C'est en effet le moins que l'on puisse dire.

Cool que nous soyons d'accord sur ce point :)
 
> > A ce sujet, ayons une pensée pour nos amis asiatiques qui se battent avec 
> > ces 
> > problèmes tous les jours
> 
> Tiens, justement, ni les chinois, ni les japonais n'utilisent Unicode (et 
> particulièrement UTF-8)... Je viens de regarder dix sites Web d'universités 
> chinoises (du continent) et une seule est en UTF-8, les neuf autres en 
> GB2312. Et le Web est pourtant un des domaines où Unicode marche le mieux.

L'utilisation d'Unicode pour l'encodage des pages web n'est pas nécessaire car 
l'html peut contenir des méta données. Cf http://www.asahi.jp -> <meta 
http-equiv="Content-Type" content="text/html; charset=Shift_JIS"> : le 
navigateur s'en sert pour faire une conversion dans les encodages qu'il gère 
en interne (mozilla convertit tout en unicode en interne avant affichage).

En revanche pour les fichiers texte qui ne contiennent pas de méta données 
sur l'encodage utilisé, les japonais et chinois utilisent de plus en plus de 
l'unicode afin de ne pas avoir à changer à la main l'encodage utilisé en 
fonction de l'origine du fichier.

Ce qui est important c'est que nos programmes qui manipulent du texte utilisent 
unicode pour l'encoder avant de le sauver afin que n'importe qui puisse 
récupérer le fichier et l'afficher chez lui sans avoir à faire la moindre 
manipulation.
C'est déjà possible sous windows et Redhat s'y est mis sérieusement il y a 
quelques temps déjà. Debian est hélas un peu à la traine, mais visiblement 
ils sont conscients du problème (cf les mailing lists developer), heureusement 
:).

Et je parlais des chinois et japonais sous linux, ce sont eux qui doivent se 
battre pour lire nos fichiers textes et configurer leurs logiciels pour pouvoir 
saisir leurs propres caractères :)
Problème que n'ont pas les américains puisque linux et les logiciels "bêtes 
et méchants" gèrent nativement l'ascii.

Cordialement,
Laurent

Re: bash et UTF-8

Répondre à