2013/7/8 MaX <maxlinux2...@gmail.com>: > ciao a tutti, ho bisogno ancora di aiuto. > > Sono alle prese con uno script che attraverso awk oppure sed ha questo input > > <div align="center"><div class="quote_top" > align="left"><b>CITAZIONE</b> (Nik UTENTE @ 30/6/2013, 11:18)<a > href="?t=65090309&st=135#entry537684346"> </a></div><div > class="quote" align="left">...Testo del messaggio</div></div> > > e dovrebbe risultare: > > [quote="nik UTENTE"]>...Testo del messaggio[/quote] > > naturalmente i numeri id/entry, Nik UTENTE e Testo del messaggio > variano continuamente. > > Si tratta di convertire tag html in BBcode e devo farlo in bash. > > Alcune idee?
Se ho capito bene devi estrapolare le parti Nik Utente e testo del messaggio...Ti propongo una regex che fa al caso tuo (ti consiglio comunque, come ti è stato proposto, di usare librerie apposite che ti fanno la conversione). sed -r 's/<div.*class="quote_top".*<b>CITAZIONE<\/b>\s\((.*)\s@\s[0-9]+\/[0-9]+\/[0-9]+,.*>([^<]+)<\/div><\/div>/[quote="\1"]\2[\/quote]/g' La regex che ti ho scritto sopra però ha il difetto di non lavorare su testo multiline...Quindi dovresti prima togliere preventivamente i \n [cut] -- Linux Registered User (http://counter.li.org) #378635 So this is how liberty dies...with thunderous applause. - Padmé Amidala -- Per REVOCARE l'iscrizione alla lista, inviare un email a debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per problemi inviare un email in INGLESE a listmas...@lists.debian.org To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org Archive: http://lists.debian.org/CAKKVCFbBKHcq4D97B=q_2hd2zu2ydwfvrqvoy+jitbt3s2v...@mail.gmail.com