Re: [Python] split di file di grandi dimensioni

Ernesto Fri, 04 Dec 2009 07:37:44 -0800

Gawk per Windows funziona discretamente bene.
Mi ha processato file di 900 mega in pochi secondi liberandomi di
molto lavoro manuale :)


effettivamente sì, se il problema postato dall'op é per questioni di
lavoro io utilizzerei gawk, senza perdere tempo a implementare
qualcosa che esiste giá :-)
Non sono sicuro ma mi sembra che almeno awk sia installato di default
sui mac. In questo caso il comando diventa semplicemente:
awk '{print $0 > "output_"$3".txt"}' input.txt

Personalmente l'ho utilizzato per problemi simili e su quantitá di
dati simili a quelli della domanda (10, 15 GB) e non ho mai dovuto
aspettare piu' di una ora.

Al massimo, se anche gawk dovesse essere lento, conviene semplificare
il problema alla base, ovvero: splittare il file in pezzi piu' piccoli
(comando split) e correrlo in parallelo, oppure ordinarlo (sort -k),
sempre che non sia importante mantenere l'ordine delle righe
originale.

Sto provando con gawk per velocizzare lo split. Sono passate 2 ore edil processo non è ancora terminato.Volevo evitare gawk per avere uno script portabile senza richiedereall'utente di installare altro software.


Grazie
Ernesto

_______________________________________________
Python mailing list
[email protected]
http://lists.python.it/mailman/listinfo/python

Re: [Python] split di file di grandi dimensioni

Rispondere a