Germán Poó Caamaño escribio:
> No sólo para lenguajes occidentales, si fuera así sería una solución
> demasiado rebuscada para algo que podría resolverse con 2 bytes y
> sobrarían bits. El problema de UTF-16 y UTF-32 (UCS-2 y UCS-4
> respectivamente) es la complejidad de implementación, ya que
> consideran tamaños de palabra mayores.
La codificacion UTF-32 utiliza un numero fijo de bits (32), lo que, a
mi parecer, hace mas facil la implementacion que en el caso de UTF-8,
que es de largo variable. El problema de UTF-32 y UTF-16 es la cantidad
de bits desperdiciados, especialmente en lenguajes occidentales, donde
tal como tu dices, 2 bytes son suficientes y ademas sobran bits.
Saludos!
--
Roberto Bonvallet
From [EMAIL PROTECTED] Tue Nov 1 13:26:26 2005
From: [EMAIL PROTECTED] (Enrique Place)
Date: Tue Nov 1 13:31:00 2005
Subject: =?iso-8859-1?q?=BFutilidad_para_limpiar/corregir_c=F3digo_HTML?=
=?iso-8859-1?q?=3F?=
Message-ID: <[EMAIL PROTECTED]>
Tengo "heredado" código html muy "chancho" (muchos generados a partir
de Word) y me están haciendo perder mucho tiempo porque quiero borrar
todas las marcas de estilos, fonts y varios indeseables.
Quiero tener como resultado un código limpio html, lo más básico posible.
Qué scripts/utilidades pueden recomendar?
Uso Quanta y Eclipse/PHPEclipse, pero no encontré este tipo de funcionalidad.
Estuve buscando en Freshmeat.net, y encontré muchos interesantes:
Microsoft Word 2002 Unmunger
http://freshmeat.net/projects/wordunmunger/
html_scrub
http://freshmeat.net/projects/htmlscrub/
Html To Xhtml Convertor - Default branch
http://freshmeat.net/projects/htx/
Sugerencias, experiencias? En lo posible para consola, y siempre, GPL
(aunque toleraría algún BSD ;-)
--
Saludos, Enrique.