[Open-source] Re: [I18NGR] φίλτρο για greeklish?

Konstantinos Margaritis markos at debian.gr
Fri Nov 25 21:41:00 EET 2005


(παίζεται καμιά μάχη ανάμεσα στις λίστες και δεν την έχω καταλάβει? τι 
πάθατε όλοι σας και μου χαλάτε τα CC?)

On Παρασκευή 25 Νοέμβριος 2005 20:50, Alexios Zavras wrote:
> Ta belh prepei na phgainoyn anapoda.
> Kai tote anakalypteis oti den einai monadikh antistoixish
> (h dikia moy, toylaxiston, h opoia den einai 1:1 chars).

σωστό για τα βέλη αλλά πού υπάρχει δυισμός;

> Orthografos poy anagnwrizei to O'Reilly ?

κοίτα πού κόλλησε :-)
Κανονικά ναι τέτοια ονόματα τα αναγνωρίζουν οι "καλοί" ορθογράφοι...

> > > Βήμα 3: μετατρέπουμε κάθε λέξη με κάθε μέθοδο για μετατροπή από
> > > greeklish και δίνουμε +1 πόντο στη μέθοδο αν η τελική λέξη
> > > αναγνωρίζεται από τον ορθογράφο,
>
> Exeis kai Ellhniko orthografo,
> poy malista doyleyei se atones lekseis ?

αυτό δεν είναι δύσκολο να γίνει, 

> > > Όπως θα προσεξατε η μεθοδος δεν είναι τελεια. Π.χ. δεν
> > > μετετρεψε τις λεξεις "με" και "το" και δεν παρέχει τονισμό.
>
> Xalase kai ta line breaks moy :-)
>
> > > το 2ο με χρήση του ορθογράφου.
>
> De ginetai ayto, logw leksewn poy diaferoyn mono se tono
> (p.x. "teleia": perfect; fullstop
> 	"alla": others; but
> 	"ektos": except; sixth
> klp. klp.).
> Ektos, an plai ston orthografo, exeis kai syntaktikh/ermhneytikh
> analysh.

σωστό, το συγκεκριμένο ίσως να είναι αρκετά πιο δύσκολο. 

> Proswpika pisteyw oti den aksizei, kai gia thn akribeia oti einai
> wraio paradeigma gia artificial artificial intelligence.

δε νομίζω ρε συ, εντάξει να βγάλεις 100% το εννοούμενο κείμενο ίσως να 
είναι αδύνατο αλλά εδώ τα επαγγελματικά εργαλεία 
μετάφρασης/διόρθωσης/μετατροπής/κλπ δεν εγγυώνται ποσοστά πάνω από τα 
90-95% στην καλύτερη περίπτωση. Αν π.χ. ένα απλό εργαλείο δουλέψει με 
ένα ποσοστό 70-80% απλώς για να μη χτυπάει στο μάτι, μας πειράζει;

> Me mia wra doyleias ayto to apotelesma pairneis... :-)
> [kai akribws tetoies wres doyleias exoyn katanalwthei apo polloys,
>  edw kai 20 xronia toylaxiston]

Ε, κοίτα δεν εργάζομαι και σε symbolic analysis. Αλλά αφου το θέτεις 
έτσι, αν δούλευα π.χ. 1-2 μήνες full time, είμαι σίγουρος ότι θα 
έφτανα τα ποσοστά επαγγελματικών πακέτων και ίσως και καλύτερα. Αλλά 
δεν έχω σκοπό να ξοδέψω τον λιγιστό ελεύθερο μου χρόνο για κάτι 
τέτοιο. Αν κάποιος ενδιαφέρεται να δώσει funding για κάτι τέτοιο, 
πολύ ευχαρίστως, αλλά όχι και να πήξω άσκοπα λες και δεν έχω άλλα 
σημαντικά πράγματα να κάνω.

> Alla ola ayta einai gia text filtra.  An thes na arxiseis
> na peirazeis mails, prepei na epembaineis se olo to MIME
> (allagh encoding headers, sbhsimo ypografwn, isws alternate
> h metafrash apo to original, ki ena swro alla...)

Η διαχείριση του ΜΙΜΕ είναι σχετικά απλή και γι' αυτό δεν την έβαλα 
στην κουβέντα. Πραγματικά, πλέον το να χειριστείς MIME attachments 
μέσω Perl, Python, PHP, κλπ, ακόμη και C++ (ναι είμαι σίγουρος ότι 
κάτι θα υπάρχει και για Τcl Ö:-), είναι πάρα πολύ απλό. Το θέμα είναι 
ότι ασχολούμαστε μόνο με body ή text/plain attachments. 

Με αυτόν τον τρόπο αγνοούμε όλο το κείμενο που είναι σε encoding 
ISO/UTF-8 (προσοχή όχι όλο το μήνυμα, μόνο το εν λόγω κείμενο) και 
ασχολούμαστε μόνο με το τμήμα του κειμένου που -πιθανώς- να περιέχει 
greeklish. Και το αποτέλεσμα είναι επίσης απλό, ξανακωδικοποιείται το 
μήνυμα απευθείας σε UTF-8 και ο τελικός αναγνώστης λαμβάνει ένα 
"σχεδόν" ελληνικά γραμμένο μήνυμα.

Κώστας




More information about the I18ngr mailing list