<br><br><div class="gmail_quote">2009/3/25 Giorgos Keramidas <span dir="ltr">&lt;<a href="mailto:keramida@ceid.upatras.gr">keramida@ceid.upatras.gr</a>&gt;</span><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="im">On Wed, 25 Mar 2009 18:29:53 +0000, Alexandros Papadopoulos &lt;<a href="mailto:alexandros.papadopoulos@member.fsf.org">alexandros.papadopoulos@member.fsf.org</a>&gt; wrote:<br>
&gt; Φίλτατοι, τη βοήθειά σας:<br>
&gt;<br>
&gt; Έχω ένα μεγάλο αρχείο ASCII (mediawiki database dump), μέσα από το<br>
&gt; οποίο θέλω να ρουφήξω όλα τα URLs.<br>
&gt;<br>
&gt; Ένα απλό grep δε κάνει και πολλά, μιας και επιστρέφει τη &quot;γραμμή&quot;, η<br>
&gt; οποία έχει 500000 χαρακτήρες έκαστη, μπορεί να είναι ολόκληρο άρθρο<br>
&gt; κτλ... Πώς μπορώ να πω στο grep να βρει όλες τις λέξεις που ξεκινούν<br>
&gt; από <a href="http://blah" target="_blank">http://blah</a> και να μου επιστρέψει όλα τα matching strings μέχρι το<br>
&gt; επόμενο space, ώστε να έχω μια ωραία λίστα με τα URLs μόνο?<br>
<br>
</div>Τα URIs μπορεί να μην τελειώνουν σε space αλλά σε &#39;\&#39;&#39; ή σε &#39;&quot;&#39;.  Αλλά<br>
μπορείς, συνήθως να κάνεις θαύματα με μια μικρή παραλλαγή στο sed που<br>
έδειξε ο Μανώλης.  Προσωπικά την έχω καταβρεί με το &#39;\b&#39; της Perl σε<br>
κάτι τέτοιες περιπτώσεις:<br>
<br>
    $ cat foo<br>
    &lt;a href=&quot;<a href="http://foo" target="_blank">http://foo</a>&quot;&gt;bar&lt;/a&gt;&lt;a href=&quot;<a href="http://koko" target="_blank">http://koko</a>&quot;&gt;lala&lt;/a&gt;<br>
    $ perl -ne &#39;@m = (/\b(http:[^&quot;&#39;\&#39;&#39;]+)/g); print join(&quot;\n&quot;, @m) . &quot;\n&quot;&#39; &lt;<br>
    foo<br>
    <a href="http://foo" target="_blank">http://foo</a><br>
    <a href="http://koko" target="_blank">http://koko</a><br>
<div><div></div><div class="h5">    $<br>
<br>
<br>
--<br>
linux-greek-users mailing list -- <a href="http://lists.hellug.gr" target="_blank">http://lists.hellug.gr</a></div></div></blockquote></div><br>Μην χάσεις εσύ.. Αμέσως perl.. =)<br clear="all"><br>-- <br>Christos Bacharakis<br>
<a href="mailto:christos@bacharakis.com">christos@bacharakis.com</a><br><a href="http://bacharakis.com">http://bacharakis.com</a><br>GPG Key: 499F5C33<br><br>