O mar., 23 de feb. de 2021 ás 17:30, Xabier Villar (<[email protected]>) escribiu:
> Procesei eu o diario de sesións, mais que nada para ir probando o script > de filtrado (porque entendo que aínda non está claro que poidamos empregar > esa fonte, non?). Pégovolo aquí mais que nada por que propoñades cousas a > mellorar nel, de modo que poida ser aproveitable para distintas fontes nun > futuro. Grazas a enlaces que me pasou Xosé e o filtro que está a empregar > el, fun aprendendo un par de cousiñas e afinando. > É moi importante que recollamos todo iso nunha especie de HowTo. Unha guía paso a paso que poidamos utilizar nós ou calquera. Esa documentación adoita ser moi escasa ou moi pouco accesible Esa é unha das razóns polas que creo que o sistema de foro nos vai vir moi ben. O foro de OpenOffice, histórico onde os haxa, segue sendo superútil a día de hoxe con trucos, consellos de hai 15 anos. > De tódolos xeitos pasan cousas que igual convén tratar, así que me > gustaría saber a vosa opinión. cousas a engadir poderían ser: > > - Cambiar todas as aparicións de Sr., Sra., ou outras abreviaturas > pola súa versión completa > > +1 > > - Para números pequenos, cambialos pola súa versión en letra (0-9 -> > cero,...,nove), que nos podería deixar mais frases como válidas > > +1 > > - Facer o mesmo para aqueles números que poidan representar anos > dentro dun rango razoable (os últimos e seguintes 10 ou 20 anos, p. ex....) > > +1 cambiar a texto todos os números para recuperar frases que se poidan ler. Os números tamén son palabras que se deben recoñecer. > > - Ver se se pode facer algo coas maiúsculas os convén desbotar onde > aparezan > > É perigoso: uns pódenas ler letra-a-letra e outros como palabras, en función de se as coñecen. Por exemplo: "II GM" . Seguramente en Mozilla creen un "módulo" específico de léxico con esas cousas. Eu elimínoas e adapto as frases ou ben substitúo por algún substantivo acaído. > > - > - E calquera outra que se vos ocorra podemos ila mirando. Se > traballades con algunha fonte con problemas concretos doulle un ollo a ver > se se pode facilitar a labor (caso do TIL, por exemplo,que ten marcadores > raros polo medio) > > Do TILG, que che diga Lucía para organizar o traballo sobre esa fonte. > > - > > Outra cousa que pode resultar interesante é empregar un script en ruby que > viña nos enlaces que me pasou Xosé que filtra as frases en función de se > aportan vocabulario novo, mirando as primeiras letras de cada palabra, para > evitar moitas redundancias, pero imaxino que iso terá utilidade cando > vaiamos traballar con moitos miles de entradas. > Na miña opinión máis adiante > > Como resumo de como fago o tratamento: separo en frases co script en > python tirando de NLTK, e despois filtro co script bash. Pégovolos por aquí > tamén > > PD: Queredes repartir algo o traballo sobre lex.gal? podemos repartirnos > as leis por anos, ou cando alguén empece con algo concreto que deixe aviso > por aquí, para evitar duplicar esforzos. > Debería limitarse ata certo punto esa fonte polo estilo e o léxico que achega. Unhas cantas seleccionadas. Sigo buscando recursos, outras fontes que nos dean máis perspectiva oral da lingua. > > El dom, 21 feb 2021 a las 21:30, Antón Méixome (<[email protected]>) > escribió: > >> procesada a Lei >> Non o diario de sesións >> >> O ven., 19 de feb. de 2021 ás 22:07, Antón Méixome (<[email protected]>) >> escribiu: >> >>> Envío comparativa do meu procesamento para obter textos >>> >>> Lei de reutilización da información dos servizos públicos (obtida do >>> BOE, non de Lex.gal) >>> Diario de sesións (obtido do Parlamento) >>> >>> A elección da lei non é inocente, claro >>> >>> Creo que se ve evidente cal é o máis produtivo. >>> >>> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> [email protected] >> - Correo do administrador - [email protected] - de - Proxecto >> Trasno >> - Cancelar a subscrición no URL: >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7375&h=26f7b16072fc25c7769e1a40c3f0477dac2c7c29&sa=1091275163 >> > > > -- > > Xabier Villar > > - Lista de correo de Proxecto Trasno - Enviar correo a - > [email protected] > - Correo do administrador - [email protected] - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7383&h=9ea3b8488341bc910d699537f536efb2e1368a3b&sa=1685234884 > - Lista de correo de Proxecto Trasno - Enviar correo a - [email protected] - Administrador - [email protected] - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7386&h=2c12954bc688432d435459fc1259210f53af1c2a&sa=961900856
