Paradix ;) dijo:
>
> a peligro de decir alguna tonteria ¿no sera que uniq opera sobre lineas
> y no sobre letras? ... al menos es lo que interpreté de man uniq
>

Cierto, por eso es que comiencé con fold, que permite separar un texto en
líneas a partir de la columna indicada (en este caso la primera gracias al
parámetro -w1), de modo que quedaría solo una letra por línea. Lo que
aparentemente cuando el texto está codificado en UTF8-BOM (como era el
caso) hay que agregarle a fold el parámetro -c para que funcione bien
(quizás sin ese parámetro fold intenta cortar por bytes en lugar de
caracteres)

De todas maneras supongo que el libro (al menos segun aparece en el
proyecto Gutemberg) no está libre de errores, entre otras cosas porque no
hay una coincidencia exacta entre los signos de apertura y cierre de
admiración e interrogación, pero para lo que yo quería me da un estimado.

Probablemente ampliando mi corpus con libros más modernos los resultados
sean más precisos, pero en cualquier caso para diseñar la distribución de
un teclado eficiente deben tomarse en consideración muchas otras cosas,
como las combinaciones de lestras más frecuentes, la distribución de carga
de trabajo sobre cada mano o dedo en particular, la distancia que tienen
que moverse los dedos, etc.

No suelo escribir mucho, pero no por ello dejo de interesarme en
distribuciones de teclado eficientes como Dvorak, Arensito, Colemak,
Capewell, KALQ, etc.

En definitiva para los curiosos que hayan leido hasta aquí, este fue el
resultado que obtuve sobre la frecuencia de ocurrencia de letras en el
Quijote:

 221980 e

 193346 a

 153361 o

 125727 s

 108441 n

 100954 r

  89141 l

  87237 d

  78193 u

  77616 i

  61749 t

  59436 c

  44658 m

  40175 ,

  35465 p

  32483 q

  25115 y

  24147 b

  19920 h

  17855 v

  17225 g

  12455 í

  10530 j

   9153 ó

   8209 .

   7581 f

   7209 é

   7148 á

   7032 -

   6491 z

   4802 ;

   4241 ñ

   2046 :

   1278 ú

    960 ?

    959 ¿

    704 '

    690 !

    682 ¡

    377 x

    290 »

    166 "

     86 ü

     61 )

     61 (

     57 «

      8 1

      4 ï

      4 6

      2 w

      2 ù

      2 4

      2 0

      1 à

      1 7

      1 5

      1 3

      1 2

      1 ]




-- 
Este mensaje ha sido analizado por MailScanner
en busca de virus y otros contenidos peligrosos,
y se considera que está limpio.

______________________________________________________________________
Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba.
Gutl-l@jovenclub.cu
https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l

Responder a