New project? Greek dictionary in dict format...? freedict databases?

Konstantinos Margaritis markos at debian.gr
Sun Aug 15 13:36:03 EEST 2004


Καλησπέρα σε όλους και χρόνια πολλά,
Καθώς χρησιμοποιούσα το dict για να βρω την ερμηνεία κάποιων όρων, αναρωτήθηκα γιατί να μην υπάρχει κάτι τέτοιο και για τα ελληνικά. Στο κάτω κάτω, υπάρχουν πολλά και καλά εργαλεία όπως το kdict, πέρα από την εντολή dict και θα ήταν χρήσιμο να μπορούσαμε να τα χρησιμοποιήσουμε αυτά και για ελληνικό λεξικό.
Κοίταξα λίγο το format μιας βάσης δεδομένων λέξεων για το dict και δε φαίνεται φοβερά περίπλοκο, υπάρχουν και εργαλεία και είναι UTF-8 friendly. Το οποίο σημαίνει ότι χρειαζόμαστε μόνο τα δεδομένα, τις λέξεις δηλαδή, για να έχουμε ένα λεξικό με τη μορφή dict.
Το πιο σημαντικό δηλαδή θα μου πείτε! Ναι, αλλά είμαστε αρκετοί και έχω ήδη και μια ιδέα για να το δημιουργήσουμε. Δυστυχώς για λόγους copyright δε μπορούμε να πάρουμε απλώς τα στοιχεία από ένα online ελληνικό λεξικό (π.χ. στο in.gr ή σε άλλο) εκτός αν μπορούμε να πείσουμε τους φορείς να μας δώσουν τα δεδομένα, το οποίο το βλέπω χλωμό...
Ο Αλέξης είχε πεί για τη βάση λέξεων του aspell. Θα μπορούσαμε να ξεκινήσουμε από εκεί. Ναι είναι πολλές χιλιάδες λέξεις αλλά αν οργανώσουμε λίγο την κατάσταση θα φτάσουμε σε ένα καλό σημείο και για τα δύο projects.Για να είμαι πιο συγκεκριμένος:
1ο βήμα: Μοιράζουμε τις λέξεις αυτές σε όσους ενδιαφέρονται. Αναλόγως τα άτομα θα έλεγα να μην υπερβούμε τις 500-1000 λέξεις κάθε φορά ανά άτομο και να θέσουμε μάλιστα προθεσμίες, όχι ότι θα αρχίζουμε να κράζουμα απλά για να μην το αφήσουμε να τραβήξει επ' άπειρον.
2ο βήμα: Ξεκαθαρίζουμε τις λέξεις από τη σαβούρα που έχει μαζευτεί ΚΑΙ ταυτόχρονα επιλέγουμε τα λήματα που θα μπορούσαν να μπούν στο λεξικό.Φαντάζομαι ότι θα μαζευτούν κάπου 100-200 λέξεις αναλόγως... Αλλά δεν έχει σημασία το νούμερο, θα είναι σίγουρα αισθητά λιγότερες από τις λέξεις για τον ορθογράφο.
3ο βήμα: Ανοίγουμε τα λεξικά που έχουμε και προσπαθούμε να γράψουμε την ερμηνεία του κάθε λήματος στο format του dict.
4o βήμα: ενώνουμε τις λέξεις του καθενός και βουαλά! (δεν ξέρω γαλλικά :-)

Χωρίς να θέλω να φανώ υπερβολικός, πιστεύω ότι με λίγη οργάνωση και με 3-4 εθελοντές που δεν θα ασχολούνται full-time με αυτό, σε 5-6 μήνες μπορούμε να έχουμε ένα λεξικό κάπου στις 10000 λέξεις. Αν το καλοσκεφτείτε για 4 άτομα βγαίνουν 2500 λέξεις σύνολο, 500 λέξεις το μήνα, δεν είναι και πάρα πολλές. Αλλά και τις μισές να κάνουμε πάλι θα έχουμε ένα αρχικό μικρό λεξικό. Το σημαντικό κατά τη γνώμη μου είναι να θέσουμε στόχους και ημερομηνίες που να προσπαθήσουμε να τηρήσουμε, όχι για κανέναν άλλο λόγο απλώς γιατί μπορούμε.
Τί λέτε;
Κώστας
ΥΓ. Αντίστοιχα σαν επόμενο project θα μπορούσαμε να φτιάξουμε και δίγλωσσα λεξικά βασισμένα στο freedict. Υπάρχει αυτή τη στιγμή ένα freedict λεξικό από ελληνικά στα γερμανικά με 5 λέξεις... ρόμπα.




More information about the I18ngr mailing list