[Gutl-l] Sobre frecuencia de letras en texto

Hugo Florentino Sat, 04 May 2013 07:28:34 -0700

Hola colegas,

Hace un momento leía sobre diseños alternativos de distribución de los
teclados en dependencia de la frecuencia de ocurrencia de letras, y quise
comprobar que las estadísiticas que encontré para el español fuesen
medianamente correctas, porque la muestra utilizada me pareció pequeña.


De modo que descargué el Quijote del proyecto Gutenberg (pg2000.txt) y
después de eliminar los metadatos irrelevantes al texto, ejecuté este
comando:

fold -w1 < pg2000.txt | tr '[:upper:]' '[:lower:]' | \
grep -vE '^(\s+)?$' | sort | uniq -c | sort -rn > quijote-freq.txt

Sucede que a pesar de utilizar el comando uniq, hay letras que se me
repiten. Alguien sabe por que puede ser esto?

Saludos, Hugo


-- 
Este mensaje ha sido analizado por MailScanner
en busca de virus y otros contenidos peligrosos,
y se considera que está limpio.

______________________________________________________________________
Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
Gutl-l@jovenclub.cu
https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l

[Gutl-l] Sobre frecuencia de letras en texto

Responder a