2009/6/25 Eri Ramos Bastos <bastos....@gmail.com>: > Olá, lista > > Estou tentando encontrar dados parcialmente duplicados num arquivo, > mas estou levando uma boa surra. > Foi bem fácil encontrar os totalmente duplicados usando sort e awk, > mas não consigo extrair os parcialmente duplicados. > > Os dados estão nesse formato aqui: http://pastebin.com/m79c990bf > > O que eu quero saber é quais dados estão sendo repetidos na primeira, > segunda e última coluna, mas são únicos na terceira coluna. Preciso > contar esses dados baseado na segunda coluna, de forma que no arquivo > exemplo o resultado do script seria: > > $ ./script raw-file.txt > 6361 34662277560 46606975 2 > 6361 36612632553 46606975 2 > 6361 36620505642 46606975 2 > > > Alguma dica? > > []'s > Eri
Se eu entendi corretamente, isto deve dar uma solução: awk '{print $1,$2,$4}' arquivo | sort | uniq -c 1 6361 34662271477 46606975 2 6361 34662277560 46606975 3 6361 34662391641 46606975 1 6361 34662424681 46606975 1 6361 35276181257 46606975 1 6361 36611606568 46606975 2 6361 36612632553 46606975 1 6361 36618429745 46606975 3 6361 36620505642 46606975 1 6361 36665115423 46606975 1 6361 37642368054 46606975 2 6361 37645894974 46606975 1 6361 37669645385 46606975 1 6361 37669659348 46606975 1 6361 37680548520 46606975 1 6361 37695259538 46606975 2 6361 37697661132 46606975 1 6361 37881454475 46606975 1 6361 37881605748 46606975 2 6361 38623842552 46606975 2 6361 38655927128 46606975 1 6361 38661337055 46606975 2 6361 38663954458 46606975 1 6361 38666570892 46606975 -- Fabiano Caixeta Duarte Especialista em Redes de Computadores Linux User #195299 Ribeirão Preto - SP