Dê uma olhada na documentação de grep(). On Sun, Sep 1, 2019 at 10:43 PM Amiko Bh por (R-br) < [email protected]> wrote:
> Muito obrigado pela ajuda. > > 1) Entendi a importância da ”limpeza” > > 2) ”Para atingir teus objetivos precisarás fazer uma busca no seu BD pela > cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista > auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de > processo correspondentes” > > Estou sem saber que passo a passo considerar aqui... > > > > > Em dom, 1 de set de 2019 15:44, Cesar Rabak por (R-br) < > [email protected]> escreveu: > >> Ellerson, >> >> SE a amostra de dados que você passou é um bom exemplo, você tem um >> problema *anterior* para resolver que é o de multiplicidade de entradas >> com grafia levemente diferentes. . . >> >> Veja as linhas cinco e seis do seu exemplo que o enquadramento, embora >> igual do ponto de vista legal, está escrito de forma levemente diferente e >> faria qualquer *script* (aliás, em qualquer linguagem, não só no R) >> entrar em parafuso 😶. . . >> >> Há vários autores que dizem que a preparação e "limpeza" dos dados leva >> 80% do tempo de análise dos dados... >> >> Para atingir teus objetivos precisarás fazer uma busca no seu BD pela >> cadeia de caracteres que contenha o "ART. 14 - CP" e a partir dessa lista >> auxiliar ir eliminando as linhas e incluir numa nova coluna nos número de >> processo correspondentes. >> >> HTH >> -- >> Cesar Rabak >> >> >> On Sat, Aug 31, 2019 at 12:29 PM Elerson por (R-br) < >> [email protected]> wrote: >> >>> Prezados: >>> >>> Trabalho um banco de dados com mais de 10000 linhas, representado pelo >>> exemplo abaixo. >>> >>> *PROCESSO* *DATA_DISTRIBUICAO* *NOME_PARTE* *DATA_CRIME* *DATA_DENUNCIA* >>> *ENQUADRAMENTO* >>> 180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT >>> - 11.343/06 >>> 180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT >>> - 11.343/06 >>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06 >>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06 >>> 180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º >>> INC. II E IV - CPB >>> 180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º >>> INC.II E IV - CPB >>> 180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º >>> INC. II E IV - CPB >>> 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 >>> INC.I E II - CP >>> 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.14 - CP >>> >>> Hipóteses: >>> >>> a) mesmo PROCESSO, NOME_PARTE diferentes, ENQUADRAMENTO igual (linhas 1 >>> e 2) >>> >>> b) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 3 >>> e 4) >>> >>> c) mesmo PROCESSO, mesmo NOME_PARTE, ENQUADRAMENTO diferentes (linhas 8 >>> e 9) >>> >>> Minha questão se refere à hipótese c: preciso criar um coluna >>> (enquadramento2) para transferir o art. 14 transformando o caso em apenas >>> uma linha… sem que se mexa na hipótese b. Em todo o banco sempre estará >>> escrito ART.14 – CP. >>> >>> Para ficar assim: >>> >>> *PROCESSO* *DATA_DISTRIBUICAO* *NOME_PARTE* *DATA_CRIME* *DATA_DENUNCIA* >>> *ENQUADRAMENTO* *ENQUADRAMENTO2* >>> 180022121 02/01/2018 A_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT >>> - 11.343/06 >>> 180022121 02/01/2018 B_NONIMATO 02/01/2018 02/01/2018 ART.33 PAR.CAPUT >>> - 11.343/06 >>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.35 - 11343/06 >>> 180022105 02/01/2018 C_NONIMATO 01/01/2018 02/01/2018 ART.33 - 11343/06 >>> 180022097 02/01/2018 D_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º >>> INC. II E IV - CPB >>> 180022097 02/01/2018 E_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR.4º >>> INC.II E IV - CPB >>> 180022097 02/01/2018 F_NONIMATO 01/01/2018 02/01/2018 ART.155 PAR. 4º >>> INC. II E IV - CPB >>> 180022501 03/01/2018 G_NONIMATO 02/01/2018 03/01/2018 ART.157 PAR.2 >>> INC.I E II - CP ART.14 - CP >>> >>> Obrigado. >>> >>> >>> >>> >>> _______________________________________________ >>> R-br mailing list >>> [email protected] >>> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >>> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >>> código mínimo reproduzível. >>> >> _______________________________________________ >> R-br mailing list >> [email protected] >> https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br >> Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça >> código mínimo reproduzível. >> > _______________________________________________ > R-br mailing list > [email protected] > https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br > Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça > código mínimo reproduzível. >
_______________________________________________ R-br mailing list [email protected] https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forneça código mínimo reproduzível.
