Anagki gia ananewmeno elefthero elliniko lejiko gia programmaelegxoy orthografias

Theodoros Karounos karounos at grnet.gr
Mon Feb 11 00:20:58 EET 2002


Έχω συζητήσει με το ΙΕΛ( http://www.ilsp.gr/ )  και το Κέντρο Ελληνικής γλώσσας(
http://www.greeklanguage.gr/ ) και ενδιαφέρονται να βοηθήσουν στην όλη
προσπάθεια, προτείνω να τους στείλουμε μια συνοπτική ενημέρωση για την αξιόλογη
δουλεία που έχει γίνει από την κοινότητα του "open source" ή ΛΑΚ έως σήμερα και
να δούμε τι θα μπορέσουν να αναλάβουν. Πάντως έχουν υλοποίηση αρκετά έργα αλλά
είναι κλειστά...

Φιλικά,
Θ.Καρούνος

Simos Xenitellis wrote:
> 
> Δοκίμασα την τοποθεσία (1) για να δω κατά πόσο τα παρακάτω είναι εφικτά.
> Στο γράμμα αυτό καταγράφω τυχόν προβλήματα που αντιμετωπίστηκαν και πως
> επιλύθηκαν.
> 
> Την Πεμ, 07-02-2002 στις 15:56, ο/η Simos Xenitellis έγραψε:
> > Ευχαριστώ Παναγιώτη για το σύνδεσμο.
> > Οι ελληνικές σελίδες του Europa είναι μια άριστη πηγή. Ο έλεγχος του
> > "Ελάδα", "Εληνικό" δεν έβγαλε σφάλματα το οποίο είναι πολύ καλό.
> >
> > Κάνοντας "Αναζήτηση" σε τυπικά λεκτικά όπως αναφέρει ο Παναγιώτης,
> > φαίνεται ότι ένα μέρος των ελληνικών σελίδων είναι κάτω από καταλόγους
> > με όνομα el/.
> > Αυτό έχει ως αποτέλεσμα να μπορούν να ανακτηθούν εύκολα με μια εντολή
> > της μορφής π.χ.
> >
> >       wget -r -l 0 --no-parent the_url
> >
> > Μέχρι στιγμής βρήκα
> > 1) http://europa.eu.int/eur-lex/el/ (Προσπέλαση από το
> > http://europa.eu.int/eur-lex/el/)
> 
> Δοκιμάστηκε μόνο αυτή η τοποθεσία.
> Η εντολή ήταν:
> wget -r -l 0 --no-parent http://europa.eu.int/eur-lex/el/
> 
> Τα στατιστικά της διαδικασίας είναι
> Διάρκεια          : 21 ώρες περίπου
> Όγκος             : 1.6GB
> Αριθ. αρχείων     : 28000 περίπου
> Είδη αρχείων      : html(22732) και pdf(5209)
> Κωδικοποίηση      : iso8859-7 (για τα αρχεία HTML).
> Εξεικόνισμα οθόνης :
> http://hlp.sourceforge.net/TP/2002_02_10_102830_shot.png
> 
> Α. HTML
> 
> Για τη μετατροπή των αρχείων HTML, δοκιμάστηκαν τα html2text και lynx
> (-dump). Έγινε επιλογή υπέρ του lynx λόγω του ότι το html2text δεν
> βγάζει αποτέλεσμα όταν η δομή του αρχείου HTML δεν είναι απολύτως ορθή.
> 
> Το πρόγραμμα για τη μετατροπή κάθε αρχείου HTML σε λέξεις ήταν το
> http://hlp.sourceforge.net/TP/locale-lynx.pl
> 
> Για τη μετατροπή όλου του όγκου των αρχείων .html εκτελέστηκε η εντολή
> 
> find location_of_files -name "*.html" -exec locale-lynx.pl "{}" \; >
> WORDS
> 
> Το αρχείο WORDS είχε μέγεθος 274MB και 40εκ. περίπου λέξεις. Έπειτα από
> ταξινόμηση και "uniq", το τελικό αρχείο είχε 220269 λέξεις.
> Είναι δε διαθέσιμο στο
> http://hlp.sourceforge.net/TP/partial_result_html_only.txt.gz (~700ΚΒ)
> 
> Γενικά εμφανίστηκαν μερικά ορθογραφικά σφάλματα στα κείμενα. Ακόμα, το
> lynx δεν ήταν σε θέση να αποσπάσει ολόκληρες μερικές από τις λέξεις.
> 
> Β. PDF
> 
> Για τα αρχεία PDF υπήρξε πρόβλημα. Ένας τρόπος για να εξαχθούν οι λέξεις
> είναι με μετατροπή σε PostScript (pdf2ps) και μετά σε ASCII (psascii).
> Το αποτέλεσμα όμως ήταν πολύ κακό.
> 
> Ο άλλος τρόπος ήταν μέσω του pdftotext (πακέτο xpdf). Δοκιμάστηκε η
> έκδοση 1.00 που ανακοινώθηκε πρόσφατα. Η έκδοση αυτή υποστηρίζει Unicode
> και επιτρέπει την προσθήκη άλλων κωδικοποιήσεων όπως iso8859-7. Ωστόσο
> θέλει το αρχείο της κωδικοποίησης να έχει συγκεκριμένη μορφή. Στάλθηκε
> γράμμα στη λίστα i18ngr για το θέμα αυτό
> (http://lists.hellug.gr/pipermail/i18ngr/2002/001183.html) και αναμένετε
> απάντηση.
> 
> Η λύση της μετατροπής Unicode σε iso8859-7 με το recode δεν ήταν
> επιτυχής. Το recode σταματάει αν δει κάποιο χαρακτήρα που δεν ανήκει
> στην καθορισμένη κωδικοποίηση. Ενδέχεται να είναι πρόβλημα του xpdf στη
> μετατροπή του κειμένου του αρχείου PDF σε Unicode.
> 
> Το αποτέλεσμα είχε συγκριτικά περισσότερα σφάλματα και δεν ακολουθήθηκε.
> Το πρόγραμμα εντολών πάντως είναι διαθέσιμο στο
> http://hlp.sourceforge.net/TP/locale-pdftotext.pl
> 
> Καταλήγωντας, το αρχείο με τις λέξεις που έχουν εξαχθεί από τα αρχεία
> HTML της τοποθεσίας http://europa.eu.int/eur-lex/el/ είναι το
> http://hlp.sourceforge.net/TP/partial_result_html_only.txt.gz (~700ΚΒ)
> Η ποιότητα του αρχείου μπορεί να βελτιωθεί είτε μέσω του προγράμματος
> εντολών που κόβει το κείμενο σε λέξεις, είτε μέσω του προγράμματος που
> μετατρέπει τα αρχεία HTML σε κείμενο. Κάθε σχόλιο για τη βελτίωση της
> μεθόδου είναι ευπρόσδεκτο.
> 
> Φιλικά,
> σίμος
> 
> > 2) http://europa.eu.int/scadplus/leg/el/ (Προσπέλαση από το
> > http://europa.eu.int/scadplus/scad_el.htm)
> > 3) http://curia.eu.int/el/ (Προσπέλαση από το
> > http://curia.eu.int/el/index.htm)
> >
> > Ωστόσο, μερικές σελίδες βρίσκονται σε καταλόγους μαζί με άλλες γλώσσες.
> > Εδώ θα πρέπει να γίνει λήψη σελίδων που το αρχείο στο οποίο αναφέρονται
> > είναι της μορφής *_el.htm[l], *_el.pdf, *_el.doc.
> >
> > Ενδεχομένως να μπορεί κάποιος να αυτοματοποιήσει τη διαδικασία που
> > περιγράφει ο Παναγιώτης, της αναζήτησης τυπικών όρων και της αποθήκευσης
> > των σχετικών συνδέσμων.
> >
> > Ως εκ τούτου, οι δουλειές που προκύπτουν:
> >       1) Μεγάλωμα της λίστας των URL με ελληνικό περιεχόμενο.
> >               Αναζήτηση με τυπικούς όρους στη μηχανή αναζήτησης
> >               και έλεγχος των τοποθεσιών που εμφανίζονται.
> >       2) Χρήση προγράμματος όπως το wget για τη λήψη των σελίδων
> >               Απαιτεί χώρο στο δίσκο και έλεγχο να μην βγει
> >               από τον έλεγχο ο "WWW crawler".
> >       3) Μετατροπή των ελληνικών σελίδων σε λίστα λέξεων.
> >               Κατά προτίμηση μια λέξη ανά γραμμή. Ακόμα,
> >               να διατηρούνται τα κεφαλαία (πρώτο γράμμα,
> >               όλα τα γράμματα) διότι "ελλάδα", "άγιο όρος" κτλ
> >               πρέπει να έχουν τα πρώτα γράμματα κεφαλαία.
> >
> > Το πρώτο που θα μπορούσε να γίνει είναι το (1) και κάποιος να δοκιμάσει
> > με λίγα URL να προχωρήσει στα (2) και (3). Είναι σημαντικό η διαδικασία
> > να είναι εύκολα επαναλήψιμη, π.χ.
> >
> > $ cat el_getwords.sh
> > wget -r -l 0 --no-parent http://europa.eu.int/eur-lex/el/
> > find . -name "*.html" -exec html2txt "{}" \; > rawtext.txt
> > convertTxt2Words rawtext.txt
> > $
> >
> > Φιλικά,
> > σίμος
> >
> >
> > Την Πεμ, 07-02-2002 στις 14:50, ο/η Panayotis Pakos έγραψε:
> > Αν το πρόβλημά μας είναι να βρούμε online
> > ελληνικά κείμενα, απαλλαγμένα από
> > ορθογραφικά λάθη, τότε γιατί δεν
> > κάνουμε download κείμενα από τον κόμβο
> > Europa; http://europa.eu.int/geninfo/query_el.htm
> >
> > Η λογική είναι η εξής: βάζετε μια
> > ελληνική λέξη στο box, η μηχανή βρίσκει
> > όλα τα άρθρα που περιέχουν αυτή τη
> > λέξη (όπως κάνουν όλες οι μηχανές
> > αναζήτησης), και μετά κάνετε κλικ στο
> > link του κάθε άρθρου. Άρθρα μεγάλα,
> > σοβαρά, έγκυρα, με τη σφραγίδα των
> > επίσημων μεταφραστικών τμημάτων των
> > χωρών της Ευρωπαϊκής Ένωσης. Κατά
> > πάσα πιθανότητα δεν θα βρείτε λέξεις
> > όπως "ψιψίνα" ή "κομποσκοίνι". Όταν
> > φτάσει η ώρα να βρούμε τέτοιες λέξεις,
> > ε τότε απευθυνόμαστε στο ΔΟΛ.
> >
> > Φιλικά
> >
> > Πάνος
> >
-------------- next part --------------
A non-text attachment was scrubbed...
Name: karounos.vcf
Type: text/x-vcard
Size: 368 bytes
Desc: Card for Theodoros Karounos
URL: <http://lists.hellug.gr/pipermail/i18ngr/attachments/20020211/ea864665/attachment.vcf>


More information about the I18ngr mailing list