Anagki gia ananewmeno elefthero elliniko lejiko gia programma elegxoy orthografias

Simos Xenitellis simos74 at gmx.net
Sun Feb 10 15:58:19 EET 2002


Δοκίμασα την τοποθεσία (1) για να δω κατά πόσο τα παρακάτω είναι εφικτά.
Στο γράμμα αυτό καταγράφω τυχόν προβλήματα που αντιμετωπίστηκαν και πως
επιλύθηκαν.

Την Πεμ, 07-02-2002 στις 15:56, ο/η Simos Xenitellis έγραψε:
> Ευχαριστώ Παναγιώτη για το σύνδεσμο.
> Οι ελληνικές σελίδες του Europa είναι μια άριστη πηγή. Ο έλεγχος του
> "Ελάδα", "Εληνικό" δεν έβγαλε σφάλματα το οποίο είναι πολύ καλό.
> 
> Κάνοντας "Αναζήτηση" σε τυπικά λεκτικά όπως αναφέρει ο Παναγιώτης,
> φαίνεται ότι ένα μέρος των ελληνικών σελίδων είναι κάτω από καταλόγους
> με όνομα el/.
> Αυτό έχει ως αποτέλεσμα να μπορούν να ανακτηθούν εύκολα με μια εντολή
> της μορφής π.χ.
> 
> 	wget -r -l 0 --no-parent the_url
> 
> Μέχρι στιγμής βρήκα
> 1) http://europa.eu.int/eur-lex/el/ (Προσπέλαση από το
> http://europa.eu.int/eur-lex/el/)

Δοκιμάστηκε μόνο αυτή η τοποθεσία.
Η εντολή ήταν:
wget -r -l 0 --no-parent http://europa.eu.int/eur-lex/el/

Τα στατιστικά της διαδικασίας είναι
Διάρκεια          : 21 ώρες περίπου
Όγκος             : 1.6GB
Αριθ. αρχείων     : 28000 περίπου
Είδη αρχείων      : html(22732) και pdf(5209)
Κωδικοποίηση      : iso8859-7 (για τα αρχεία HTML).
Εξεικόνισμα οθόνης :
http://hlp.sourceforge.net/TP/2002_02_10_102830_shot.png

Α. HTML

Για τη μετατροπή των αρχείων HTML, δοκιμάστηκαν τα html2text και lynx
(-dump). Έγινε επιλογή υπέρ του lynx λόγω του ότι το html2text δεν
βγάζει αποτέλεσμα όταν η δομή του αρχείου HTML δεν είναι απολύτως ορθή.

Το πρόγραμμα για τη μετατροπή κάθε αρχείου HTML σε λέξεις ήταν το
http://hlp.sourceforge.net/TP/locale-lynx.pl

Για τη μετατροπή όλου του όγκου των αρχείων .html εκτελέστηκε η εντολή

find location_of_files -name "*.html" -exec locale-lynx.pl "{}" \; >
WORDS

Το αρχείο WORDS είχε μέγεθος 274MB και 40εκ. περίπου λέξεις. Έπειτα από
ταξινόμηση και "uniq", το τελικό αρχείο είχε 220269 λέξεις.
Είναι δε διαθέσιμο στο
http://hlp.sourceforge.net/TP/partial_result_html_only.txt.gz (~700ΚΒ)

Γενικά εμφανίστηκαν μερικά ορθογραφικά σφάλματα στα κείμενα. Ακόμα, το
lynx δεν ήταν σε θέση να αποσπάσει ολόκληρες μερικές από τις λέξεις.

Β. PDF

Για τα αρχεία PDF υπήρξε πρόβλημα. Ένας τρόπος για να εξαχθούν οι λέξεις
είναι με μετατροπή σε PostScript (pdf2ps) και μετά σε ASCII (psascii).
Το αποτέλεσμα όμως ήταν πολύ κακό.

Ο άλλος τρόπος ήταν μέσω του pdftotext (πακέτο xpdf). Δοκιμάστηκε η
έκδοση 1.00 που ανακοινώθηκε πρόσφατα. Η έκδοση αυτή υποστηρίζει Unicode
και επιτρέπει την προσθήκη άλλων κωδικοποιήσεων όπως iso8859-7. Ωστόσο
θέλει το αρχείο της κωδικοποίησης να έχει συγκεκριμένη μορφή. Στάλθηκε
γράμμα στη λίστα i18ngr για το θέμα αυτό
(http://lists.hellug.gr/pipermail/i18ngr/2002/001183.html) και αναμένετε
απάντηση.

Η λύση της μετατροπής Unicode σε iso8859-7 με το recode δεν ήταν
επιτυχής. Το recode σταματάει αν δει κάποιο χαρακτήρα που δεν ανήκει
στην καθορισμένη κωδικοποίηση. Ενδέχεται να είναι πρόβλημα του xpdf στη
μετατροπή του κειμένου του αρχείου PDF σε Unicode.

Το αποτέλεσμα είχε συγκριτικά περισσότερα σφάλματα και δεν ακολουθήθηκε.
Το πρόγραμμα εντολών πάντως είναι διαθέσιμο στο
http://hlp.sourceforge.net/TP/locale-pdftotext.pl


Καταλήγωντας, το αρχείο με τις λέξεις που έχουν εξαχθεί από τα αρχεία
HTML της τοποθεσίας http://europa.eu.int/eur-lex/el/ είναι το
http://hlp.sourceforge.net/TP/partial_result_html_only.txt.gz (~700ΚΒ)
Η ποιότητα του αρχείου μπορεί να βελτιωθεί είτε μέσω του προγράμματος
εντολών που κόβει το κείμενο σε λέξεις, είτε μέσω του προγράμματος που
μετατρέπει τα αρχεία HTML σε κείμενο. Κάθε σχόλιο για τη βελτίωση της
μεθόδου είναι ευπρόσδεκτο.

Φιλικά,
σίμος

> 2) http://europa.eu.int/scadplus/leg/el/ (Προσπέλαση από το
> http://europa.eu.int/scadplus/scad_el.htm)
> 3) http://curia.eu.int/el/ (Προσπέλαση από το
> http://curia.eu.int/el/index.htm)
> 
> Ωστόσο, μερικές σελίδες βρίσκονται σε καταλόγους μαζί με άλλες γλώσσες.
> Εδώ θα πρέπει να γίνει λήψη σελίδων που το αρχείο στο οποίο αναφέρονται
> είναι της μορφής *_el.htm[l], *_el.pdf, *_el.doc.
> 
> Ενδεχομένως να μπορεί κάποιος να αυτοματοποιήσει τη διαδικασία που
> περιγράφει ο Παναγιώτης, της αναζήτησης τυπικών όρων και της αποθήκευσης
> των σχετικών συνδέσμων.
> 
> Ως εκ τούτου, οι δουλειές που προκύπτουν:
> 	1) Μεγάλωμα της λίστας των URL με ελληνικό περιεχόμενο.
> 		Αναζήτηση με τυπικούς όρους στη μηχανή αναζήτησης
> 		και έλεγχος των τοποθεσιών που εμφανίζονται.
> 	2) Χρήση προγράμματος όπως το wget για τη λήψη των σελίδων
> 		Απαιτεί χώρο στο δίσκο και έλεγχο να μην βγει
> 		από τον έλεγχο ο "WWW crawler".
> 	3) Μετατροπή των ελληνικών σελίδων σε λίστα λέξεων.
> 		Κατά προτίμηση μια λέξη ανά γραμμή. Ακόμα,
> 		να διατηρούνται τα κεφαλαία (πρώτο γράμμα, 
> 		όλα τα γράμματα) διότι "ελλάδα", "άγιο όρος" κτλ
> 		πρέπει να έχουν τα πρώτα γράμματα κεφαλαία.
> 
> Το πρώτο που θα μπορούσε να γίνει είναι το (1) και κάποιος να δοκιμάσει 
> με λίγα URL να προχωρήσει στα (2) και (3). Είναι σημαντικό η διαδικασία
> να είναι εύκολα επαναλήψιμη, π.χ.
> 
> $ cat el_getwords.sh
> wget -r -l 0 --no-parent http://europa.eu.int/eur-lex/el/
> find . -name "*.html" -exec html2txt "{}" \; > rawtext.txt
> convertTxt2Words rawtext.txt
> $
> 
> Φιλικά,
> σίμος
> 
> 
> Την Πεμ, 07-02-2002 στις 14:50, ο/η Panayotis Pakos έγραψε:
> Αν το πρόβλημά μας είναι να βρούμε online
> ελληνικά κείμενα, απαλλαγμένα από
> ορθογραφικά λάθη, τότε γιατί δεν
> κάνουμε download κείμενα από τον κόμβο
> Europa; http://europa.eu.int/geninfo/query_el.htm
> 
> Η λογική είναι η εξής: βάζετε μια
> ελληνική λέξη στο box, η μηχανή βρίσκει
> όλα τα άρθρα που περιέχουν αυτή τη
> λέξη (όπως κάνουν όλες οι μηχανές
> αναζήτησης), και μετά κάνετε κλικ στο
> link του κάθε άρθρου. Άρθρα μεγάλα,
> σοβαρά, έγκυρα, με τη σφραγίδα των
> επίσημων μεταφραστικών τμημάτων των
> χωρών της Ευρωπαϊκής Ένωσης. Κατά
> πάσα πιθανότητα δεν θα βρείτε λέξεις
> όπως "ψιψίνα" ή "κομποσκοίνι". Όταν
> φτάσει η ώρα να βρούμε τέτοιες λέξεις,
> ε τότε απευθυνόμαστε στο ΔΟΛ.
> 
> Φιλικά
> 
> Πάνος
> 




More information about the I18ngr mailing list