Paradix ;) dijo: > > a peligro de decir alguna tonteria ¿no sera que uniq opera sobre lineas > y no sobre letras? ... al menos es lo que interpreté de man uniq >
Cierto, por eso es que comiencé con fold, que permite separar un texto en líneas a partir de la columna indicada (en este caso la primera gracias al parámetro -w1), de modo que quedaría solo una letra por línea. Lo que aparentemente cuando el texto está codificado en UTF8-BOM (como era el caso) hay que agregarle a fold el parámetro -c para que funcione bien (quizás sin ese parámetro fold intenta cortar por bytes en lugar de caracteres) De todas maneras supongo que el libro (al menos segun aparece en el proyecto Gutemberg) no está libre de errores, entre otras cosas porque no hay una coincidencia exacta entre los signos de apertura y cierre de admiración e interrogación, pero para lo que yo quería me da un estimado. Probablemente ampliando mi corpus con libros más modernos los resultados sean más precisos, pero en cualquier caso para diseñar la distribución de un teclado eficiente deben tomarse en consideración muchas otras cosas, como las combinaciones de lestras más frecuentes, la distribución de carga de trabajo sobre cada mano o dedo en particular, la distancia que tienen que moverse los dedos, etc. No suelo escribir mucho, pero no por ello dejo de interesarme en distribuciones de teclado eficientes como Dvorak, Arensito, Colemak, Capewell, KALQ, etc. En definitiva para los curiosos que hayan leido hasta aquí, este fue el resultado que obtuve sobre la frecuencia de ocurrencia de letras en el Quijote: 221980 e 193346 a 153361 o 125727 s 108441 n 100954 r 89141 l 87237 d 78193 u 77616 i 61749 t 59436 c 44658 m 40175 , 35465 p 32483 q 25115 y 24147 b 19920 h 17855 v 17225 g 12455 í 10530 j 9153 ó 8209 . 7581 f 7209 é 7148 á 7032 - 6491 z 4802 ; 4241 ñ 2046 : 1278 ú 960 ? 959 ¿ 704 ' 690 ! 682 ¡ 377 x 290 » 166 " 86 ü 61 ) 61 ( 57 « 8 1 4 ï 4 6 2 w 2 ù 2 4 2 0 1 à 1 7 1 5 1 3 1 2 1 ] -- Este mensaje ha sido analizado por MailScanner en busca de virus y otros contenidos peligrosos, y se considera que está limpio. ______________________________________________________________________ Lista de correos del Grupo de Usuarios de Tecnologías Libres de Cuba. Gutl-l@jovenclub.cu https://listas.jovenclub.cu/cgi-bin/mailman/listinfo/gutl-l