Re: μετατροπή ελληνικού html σε text (χύμα)

Nick Demou ndemou at gmail.com
Wed Oct 4 13:45:35 EEST 2006


Την 3/10/2006, Giorgos Keramidas <keramida at ceid.upatras.gr> έγραψε:
> On 2006-10-03 12:21, Nick Demou <ndemou at gmail.com> wrote:
> > [...]
> >
> > Ψάχνω λοιπόν ένα utility το οποίο να κάνει σε ελληνικές σελίδες ότι
> > κάνει και το sed -e 's#<[^>]*>##g' στις αγγλικές (δηλαδή να διαβάζει
> > html και να αφερεί τα πάντα εκτός από το κυρίως κείμενο το οποίο να το
> > περνά στην έξοδο σε utf-8)
> >
> > [...]
>
> Εγώ προτιμώ συνήθως να κάνω HTML-diff αλλά με μια μικρή πονηριά.
>
> Πριν κάνω diff στο 'a' και το 'b' αρχείο, τα περνάω από το tidy(1) και
> τα δύο, με παραμέτρους:
>
>     % tidy -asxml -i -raw -wrap 120 a > a.tidy
>     % tidy -asxml -i -raw -wrap 120 b > b.tidy
>
> Ετσι είναι πιο 'προβλέψιμο' τι έχει το HTML κείμενο, και μπορώ να κάνω
> diff στο HTML source.

το δοκίμασα το html-diff και είναι ωραίο. Θέλω μόνο να βρω λίγο χρόνο
για να κάνω το μαρκάρισμα των αλλαγών να ξεχωρίζει πιο έντονα από το
σύνολο της σελίδας. Απο μια διαγώνια ματιά στον κώδικα είδα ότι μπορώ
να πειράξω το html που προσθέτει πριν και μετά από κάθε αλλαγή για να
βάλω π.χ. μεγάλα λαμπερά γράμματα στις προσθήκες. Έχεις καμιά καλύτερη
ιδέα - αν σε έχει απασχολήσει- ?




More information about the Linux-greek-users mailing list