Gawk per Windows funziona discretamente bene.
Mi ha processato file di 900 mega in pochi secondi liberandomi di
molto lavoro manuale :)

effettivamente sì, se il problema postato dall'op é per questioni di
lavoro io utilizzerei gawk, senza perdere tempo a implementare
qualcosa che esiste giá :-)
Non sono sicuro ma mi sembra che almeno awk sia installato di default
sui mac. In questo caso il comando diventa semplicemente:
awk '{print $0 > "output_"$3".txt"}' input.txt

Personalmente l'ho utilizzato per problemi simili e su quantitá di
dati simili a quelli della domanda (10, 15 GB) e non ho mai dovuto
aspettare piu' di una ora.

Al massimo, se anche gawk dovesse essere lento, conviene semplificare
il problema alla base, ovvero: splittare il file in pezzi piu' piccoli
(comando split) e correrlo in parallelo, oppure ordinarlo (sort -k),
sempre che non sia importante mantenere l'ordine delle righe
originale.

Sto provando con gawk per velocizzare lo split. Sono passate 2 ore ed il processo non è ancora terminato. Volevo evitare gawk per avere uno script portabile senza richiedere all'utente di installare altro software.

Grazie
Ernesto
_______________________________________________
Python mailing list
Python@lists.python.it
http://lists.python.it/mailman/listinfo/python

Rispondere a