Anagki gia ananewmeno elefthero elliniko lejiko gia programma elegxoy orthografias

Thu Feb 7 17:56:24 EET 2002

Ευχαριστώ Παναγιώτη για το σύνδεσμο.
Οι ελληνικές σελίδες του Europa είναι μια άριστη πηγή. Ο έλεγχος του
"Ελάδα", "Εληνικό" δεν έβγαλε σφάλματα το οποίο είναι πολύ καλό.

Κάνοντας "Αναζήτηση" σε τυπικά λεκτικά όπως αναφέρει ο Παναγιώτης,
φαίνεται ότι ένα μέρος των ελληνικών σελίδων είναι κάτω από καταλόγους
με όνομα el/.
Αυτό έχει ως αποτέλεσμα να μπορούν να ανακτηθούν εύκολα με μια εντολή
της μορφής π.χ.

	wget -r -l 0 --no-parent the_url

Μέχρι στιγμής βρήκα
1) http://europa.eu.int/eur-lex/el/ (Προσπέλαση από το
http://europa.eu.int/eur-lex/el/)
2) http://europa.eu.int/scadplus/leg/el/ (Προσπέλαση από το
http://europa.eu.int/scadplus/scad_el.htm)
3) http://curia.eu.int/el/ (Προσπέλαση από το
http://curia.eu.int/el/index.htm)

Ωστόσο, μερικές σελίδες βρίσκονται σε καταλόγους μαζί με άλλες γλώσσες.
Εδώ θα πρέπει να γίνει λήψη σελίδων που το αρχείο στο οποίο αναφέρονται
είναι της μορφής *_el.htm[l], *_el.pdf, *_el.doc.

Ενδεχομένως να μπορεί κάποιος να αυτοματοποιήσει τη διαδικασία που
περιγράφει ο Παναγιώτης, της αναζήτησης τυπικών όρων και της αποθήκευσης
των σχετικών συνδέσμων.

Ως εκ τούτου, οι δουλειές που προκύπτουν:
	1) Μεγάλωμα της λίστας των URL με ελληνικό περιεχόμενο.
		Αναζήτηση με τυπικούς όρους στη μηχανή αναζήτησης
		και έλεγχος των τοποθεσιών που εμφανίζονται.
	2) Χρήση προγράμματος όπως το wget για τη λήψη των σελίδων
		Απαιτεί χώρο στο δίσκο και έλεγχο να μην βγει
		από τον έλεγχο ο "WWW crawler".
	3) Μετατροπή των ελληνικών σελίδων σε λίστα λέξεων.
		Κατά προτίμηση μια λέξη ανά γραμμή. Ακόμα,
		να διατηρούνται τα κεφαλαία (πρώτο γράμμα, 
		όλα τα γράμματα) διότι "ελλάδα", "άγιο όρος" κτλ
		πρέπει να έχουν τα πρώτα γράμματα κεφαλαία.

Το πρώτο που θα μπορούσε να γίνει είναι το (1) και κάποιος να δοκιμάσει 
με λίγα URL να προχωρήσει στα (2) και (3). Είναι σημαντικό η διαδικασία
να είναι εύκολα επαναλήψιμη, π.χ.

$ cat el_getwords.sh
wget -r -l 0 --no-parent http://europa.eu.int/eur-lex/el/
find . -name "*.html" -exec html2txt "{}" \; > rawtext.txt
convertTxt2Words rawtext.txt
$

Φιλικά,
σίμος

Την Πεμ, 07-02-2002 στις 14:50, ο/η Panayotis Pakos έγραψε:
Αν το πρόβλημά μας είναι να βρούμε online
ελληνικά κείμενα, απαλλαγμένα από
ορθογραφικά λάθη, τότε γιατί δεν
κάνουμε download κείμενα από τον κόμβο
Europa; http://europa.eu.int/geninfo/query_el.htm

Η λογική είναι η εξής: βάζετε μια
ελληνική λέξη στο box, η μηχανή βρίσκει
όλα τα άρθρα που περιέχουν αυτή τη
λέξη (όπως κάνουν όλες οι μηχανές
αναζήτησης), και μετά κάνετε κλικ στο
link του κάθε άρθρου. Άρθρα μεγάλα,
σοβαρά, έγκυρα, με τη σφραγίδα των
επίσημων μεταφραστικών τμημάτων των
χωρών της Ευρωπαϊκής Ένωσης. Κατά
πάσα πιθανότητα δεν θα βρείτε λέξεις
όπως "ψιψίνα" ή "κομποσκοίνι". Όταν
φτάσει η ώρα να βρούμε τέτοιες λέξεις,
ε τότε απευθυνόμαστε στο ΔΟΛ.

Φιλικά

Πάνος