<br><br><div class="gmail_quote">2009/3/25 Giorgos Keramidas <span dir="ltr"><<a href="mailto:keramida@ceid.upatras.gr">keramida@ceid.upatras.gr</a>></span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="im">On Wed, 25 Mar 2009 18:29:53 +0000, Alexandros Papadopoulos <<a href="mailto:alexandros.papadopoulos@member.fsf.org">alexandros.papadopoulos@member.fsf.org</a>> wrote:<br>
> Φίλτατοι, τη βοήθειά σας:<br>
><br>
> Έχω ένα μεγάλο αρχείο ASCII (mediawiki database dump), μέσα από το<br>
> οποίο θέλω να ρουφήξω όλα τα URLs.<br>
><br>
> Ένα απλό grep δε κάνει και πολλά, μιας και επιστρέφει τη "γραμμή", η<br>
> οποία έχει 500000 χαρακτήρες έκαστη, μπορεί να είναι ολόκληρο άρθρο<br>
> κτλ... Πώς μπορώ να πω στο grep να βρει όλες τις λέξεις που ξεκινούν<br>
> από <a href="http://blah" target="_blank">http://blah</a> και να μου επιστρέψει όλα τα matching strings μέχρι το<br>
> επόμενο space, ώστε να έχω μια ωραία λίστα με τα URLs μόνο?<br>
<br>
</div>Τα URIs μπορεί να μην τελειώνουν σε space αλλά σε '\'' ή σε '"'. Αλλά<br>
μπορείς, συνήθως να κάνεις θαύματα με μια μικρή παραλλαγή στο sed που<br>
έδειξε ο Μανώλης. Προσωπικά την έχω καταβρεί με το '\b' της Perl σε<br>
κάτι τέτοιες περιπτώσεις:<br>
<br>
$ cat foo<br>
<a href="<a href="http://foo" target="_blank">http://foo</a>">bar</a><a href="<a href="http://koko" target="_blank">http://koko</a>">lala</a><br>
$ perl -ne '@m = (/\b(http:[^"'\'']+)/g); print join("\n", @m) . "\n"' <<br>
foo<br>
<a href="http://foo" target="_blank">http://foo</a><br>
<a href="http://koko" target="_blank">http://koko</a><br>
<div><div></div><div class="h5"> $<br>
<br>
<br>
--<br>
linux-greek-users mailing list -- <a href="http://lists.hellug.gr" target="_blank">http://lists.hellug.gr</a></div></div></blockquote></div><br>Μην χάσεις εσύ.. Αμέσως perl.. =)<br clear="all"><br>-- <br>Christos Bacharakis<br>
<a href="mailto:christos@bacharakis.com">christos@bacharakis.com</a><br><a href="http://bacharakis.com">http://bacharakis.com</a><br>GPG Key: 499F5C33<br><br>