OT: grep help

Wed Mar 25 20:51:44 EET 2009

2009/3/25 Alexandros Papadopoulos <alexandros.papadopoulos at member.fsf.org>:
> Φίλτατοι, τη βοήθειά σας:
>
> Έχω ένα μεγάλο αρχείο ASCII (mediawiki database dump), μέσα από το
> οποίο θέλω να ρουφήξω όλα τα URLs.
>
> Ένα απλό grep δε κάνει και πολλά, μιας και επιστρέφει τη "γραμμή", η
> οποία έχει 500000 χαρακτήρες έκαστη, μπορεί να είναι ολόκληρο άρθρο
> κτλ... Πώς μπορώ να πω στο grep να βρει όλες τις λέξεις που ξεκινούν
> από http://blah και να μου επιστρέψει όλα τα matching strings μέχρι το
> επόμενο space, ώστε να έχω μια ωραία λίστα με τα URLs μόνο?
>
> Ευχαριστώ προκαταβολικά

Μια λίγο διαφορετική προσέγγιση είναι να αντικαταστήσεις (π.χ. με sed) το

http://blah[διάφορα][space] με [νέα
γραμμή]http://blah[διάφορα][space][νέα γραμμή]

κι ύστερα να κάνεις απλό grep για http://blah.

Να απομονώσεις δηλαδή τα URLs το καθένα σε δική του γραμμή.

Η εντολή για το sed θα μπορούσε να είναι κάτι σαν το παρακάτω:

sed 's/\(http:\/\/blah.\+ \)/\n\1\n/' < blahfile