Re: [Python] It's 1999 all over again

Daniele Varrazzo Thu, 13 Feb 2014 08:04:32 -0800

On 2014-02-13 15:22, Manlio Perillo wrote:

On 13/02/2014 16:07, Daniele Varrazzo wrote:

- sei legato all'implementazione del carattere (char, utf16, utf32)


Direi che lo stesso problema è presente, in parte, con Go:
http://golang.org/ref/spec#String_types

Il problema è risolto dal fatto che hanno dichiarato che le stringhesono solo 8 bit e sono solo codificate in utf8, mentre l'accesso aicodepoint unicode ha un'interfaccia separata. Questo porta alleconseguenze che:


- sono più efficienti in memoria di utf16/32

- sai che a[n] non è un carattere ma è un byte. La bugia dei widecharnon regge. Neanche quella di unicode in python che però si rompe al difuori del BMP (a meno che non lo compili 4 byte per carattere blah blah)

- tipicamente l'i/o non richiede encoding/decoding

- accedere ai codepoint lo fai con interfaccia sequenziale, non con unarray. Se mi ricordo bene (non tocco Go da un anno) ci sono interfacceche streamano rune partendo da stringhe.

Quindi direi che le stringhe in Go non sono "vere" stringhe, come inPython:
http://play.golang.org/p/6Q7KoyuEA1

Il programma stampa 6, non 2 come mi sarei aspettato da un linguaggio
che supporta un tipo builtin per le stringhe.


utf8.RuneCountInString(s) restituisce 2.

Cosa devi sapere più spesso: quanti caratteri contiene una stringa oquanti byte ne occupa il buffer? Conoscere il numero di caratteri di unastringa è un'altra operazione largamente sopravvalutata (non scrivitutti i giorni un algoritmo per centrare una stringa di caratteri nonproporzionali in uno schermo). Molti algoritmi possono essere espressicon un'iterazione sull'input che dura fino al verificarsi di una certacondizione (fine dell'input, o altro): per questi non ti serve lalunghezza.


Quanti caratteri è lungo:

    <html>世界</html>

dipende dal contesto, no? Molte volte 2 è la risposta giusta. Intermini di occupazione 19 è la risposta giusta. 15 è una rispostainteressante? Forse si, ma non mi viente in mente dove. Sia 2 che 15richiedono una certa quantità di parsing per essere ottenute. Con Pythonpaghi sempre l'overhead necessario per avere la risposta 15 in o(1), cheti serva o meno. Se ti serviva 19 dovevi aprire il file in binario edusare un'interfaccia radicalmente diversa (str[n] -> str, bytes[n] ->int). Con Go paghi l'overhead del decoding solo quando serve.

È un linguaggio opinionato: quando incontra gente opinionata puòpiacere o non piacere :) Trovo la scelta di avere stringhe solo utf8molto razionale nel 201x, anche se richiede aggiustamenti mentalirispetto ad abitudini prese nel 197x. Ma allora non esistevano i cinesi,né le lettere accentate, né l'€, quindi è comprensibile...


-- Daniele

_______________________________________________
Python mailing list
[email protected]
http://lists.python.it/mailman/listinfo/python

Re: [Python] It's 1999 all over again

Rispondere a