O mar., 23 de feb. de 2021 ás 17:30, Xabier Villar (<[email protected]>)
escribiu:

> Procesei eu o diario de sesións, mais que nada para ir probando o script
> de filtrado (porque entendo que aínda non está claro que poidamos empregar
> esa fonte, non?). Pégovolo aquí mais que nada por que propoñades cousas a
> mellorar nel, de modo que poida ser aproveitable para distintas fontes nun
> futuro. Grazas a enlaces que me pasou Xosé e o filtro que está a empregar
> el, fun aprendendo un par de cousiñas e afinando.
>

É moi importante que recollamos todo iso nunha especie de HowTo. Unha guía
paso a paso que poidamos utilizar nós ou calquera. Esa documentación adoita
ser moi escasa ou moi pouco accesible
Esa é unha das razóns polas que creo que o sistema de foro nos vai vir moi
ben. O foro de OpenOffice, histórico onde os haxa, segue sendo superútil a
día de hoxe con trucos, consellos de hai 15 anos.




> De tódolos xeitos pasan cousas que igual convén tratar, así que me
> gustaría saber a vosa opinión. cousas a engadir poderían ser:
>
>    - Cambiar todas as aparicións de Sr., Sra., ou outras abreviaturas
>    pola súa versión completa
>
> +1


>
>    - Para números pequenos, cambialos pola súa versión en letra (0-9 ->
>    cero,...,nove), que nos podería deixar mais frases como válidas
>
> +1

>
>    - Facer o mesmo para aqueles números que poidan representar anos
>    dentro dun rango razoable (os últimos e seguintes 10 ou 20 anos, p. ex....)
>
> +1 cambiar a texto todos os números para recuperar frases que se poidan
ler. Os números tamén son palabras que se deben recoñecer.

>
>    - Ver se se pode facer algo coas maiúsculas os convén desbotar onde
>    aparezan
>
> É perigoso: uns pódenas ler letra-a-letra e outros como palabras, en
función de se as coñecen. Por exemplo: "II GM" . Seguramente en Mozilla
creen un "módulo" específico de léxico con esas cousas. Eu elimínoas e
adapto as frases ou ben substitúo por algún substantivo acaído.

>
>    -
>    - E calquera outra que se vos ocorra podemos ila mirando. Se
>    traballades con algunha fonte con problemas concretos doulle un ollo a ver
>    se se pode facilitar a labor (caso do TIL, por exemplo,que ten marcadores
>    raros polo medio)
>
> Do TILG, que che diga Lucía para organizar o traballo sobre esa fonte.

>
>    -
>
> Outra cousa que pode resultar interesante é empregar un script en ruby que
> viña nos enlaces que me pasou Xosé que filtra as frases en función de se
> aportan vocabulario novo, mirando as primeiras letras de cada palabra, para
> evitar moitas redundancias, pero imaxino que iso terá utilidade cando
> vaiamos traballar con moitos miles de entradas.
>

Na miña opinión máis adiante

>
> Como resumo de como fago o tratamento: separo en frases co script en
> python tirando de NLTK, e despois filtro co script bash. Pégovolos por aquí
> tamén
>
> PD: Queredes repartir algo o traballo sobre lex.gal? podemos repartirnos
> as leis por anos, ou cando alguén empece con algo concreto que deixe aviso
> por aquí, para evitar duplicar esforzos.
>

Debería limitarse ata certo punto esa fonte polo estilo e o léxico que
achega. Unhas cantas seleccionadas.

Sigo buscando recursos, outras fontes que nos dean máis perspectiva oral da
lingua.



>
> El dom, 21 feb 2021 a las 21:30, Antón Méixome (<[email protected]>)
> escribió:
>
>> procesada a Lei
>> Non o diario de sesións
>>
>> O ven., 19 de feb. de 2021 ás 22:07, Antón Méixome (<[email protected]>)
>> escribiu:
>>
>>> Envío comparativa do meu procesamento para obter textos
>>>
>>> Lei de reutilización da información dos servizos públicos (obtida do
>>> BOE, non de Lex.gal)
>>> Diario de sesións (obtido do Parlamento)
>>>
>>> A elección da lei non é inocente, claro
>>>
>>> Creo que se ve evidente cal é o máis produtivo.
>>>
>>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> [email protected]
>> - Correo do administrador - [email protected] - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7375&h=26f7b16072fc25c7769e1a40c3f0477dac2c7c29&sa=1091275163
>>
>
>
> --
>
> Xabier Villar
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7383&h=9ea3b8488341bc910d699537f536efb2e1368a3b&sa=1685234884
>

- Lista de correo de Proxecto Trasno - Enviar correo a - [email protected]
- Administrador - [email protected] - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7386&h=2c12954bc688432d435459fc1259210f53af1c2a&sa=961900856

Responderlle a