Prasad, Ramit wrote:
You can read as bytes and decode as ASCII but ignoring the troublesome
non-text characters:
print(open('text.txt', 'br').read().decode('ascii', 'ignore'))
Das fr ASCII nicht benutzte Bit kann auch fr Fehlerkorrekturzwecke
(Parittsbit) auf den Kommunikationsleitungen oder fr andere
Steuerungsaufgaben verwendet werden. Heute wird es aber fast immer zur
Erweiterung von ASCII auf einen 8-Bit-Code verwendet. Diese
Erweiterungen sind mit dem ursprnglichen ASCII weitgehend kompatibel,
so dass alle im ASCII definierten Zeichen auch in den verschiedenen
Erweiterungen durch die gleichen Bitmuster kodiert werden. Die
einfachsten Erweiterungen sind Kodierungen mit sprachspezifischen
Zeichen, die nicht im lateinischen Grundalphabet enthalten sind.
The paragraph is from the German Wikipedia on ASCII, in UTF-8.
I see no non-ASCII characters, not sure if that is because the source
has none or something else.
The 'ignore' argument to .decode() caused all non-ascii characters to be
removed.
~Ethan~
--
http://mail.python.org/mailman/listinfo/python-list