RE: [I18NGR] Συμβατότητα Μονοτονικού-Πολυτονικού (ήταν Μονοτονικό σε GTK+ εφαρμογές, αναθεώρηση πολυτονικού...)

Panagiotis Sidiropoulos panos at magenta.gr
Thu Jul 28 18:21:42 EEST 2005


Αγαπητέ Κώστα,

Γενικά η φιλοσοφία υποστήριξης του πολυτονικού στην κωδικοποίηση Unicode είναι: δημιουργούμε ένα εκτεταμένο σετ με τους επιπλέον χαρακτήρες του μονοτονικού (βασικού σετ). Έτσι, ένα πολυτονικό κείμενο συντίθεται από χαρακτήρες του βασικού σετ (basic) και του εκτεταμένου (extended). Για αυτό και απαιτεί πλήρη υποστήριξη Unicode από τις εφαρμογές, δεν λειτουργεί κανένα τρικ χρήσης ψευδογραματοσειρών βάσει υποσέτ από Unicode γραμματοσειρές. Αυτό φαίνεται και από το ότι δεν επαναλαμβάνονται στο εκτεταμένο σετ οι άτονοι χαρακτήρες, σωστά;

Σε όσα σου έγραψα στο πρώτο η-μήνυμα, σου προσθέτω και το εξής, σημαντικό πιστεύω, επιχείρημα: Μπορεί κάποιος να γράφει μονοτονικά χρησιμοποιώντας το πολυτονικό πληκτρολόγιο, μπορεί να το κάνει και το κάνουν όσοι γράφουν και πολυτονικά. Έχουν δηλαδή το πολυτονικό πληκτρολόγιο και ανάλογα γράφουν μονοτονικά ή πολυτονικά, ανάλογα τις ανάγκες τους διότι το μονοτονικό είναι υποσύνολο του πολυτονικού. Ένα σύγγραμμα μπορεί να γραφτεί σε πολυτονικό αλλά ένα η-μήνυμα σε μονοτονικό.

Τι θα συμβεί εάν γράφοντας με το πολυτονικό πληκτρολόγιο παίρνεις τα τονούμενα από το εκτεταμένο σετ; Δεν θα εμφανίζονται με γραμματοσειρές που δεν είναι πολυτονικές, δεν θα βλέπουν σωστά τα κείμενα παραλήπτες η-ταχυδρομείου διότι δεν θα έχουν τις ίδιες ή καθόλου πολυτονικές γραμματοσειρές. Τα έχω ζήσει όλα αυτά, πίστεψέ με.

Αυτή τη συζήτηση για κύκλο αντί γραμμής κ.λπ. Πρώτη φορά την αντιμετωπίζω. Θυμάσαι πουθενά στην εκπαίδευση σου στο σχολείο κάτι τέτοιο; Εγώ διδάχθηκα και το πολυτονικό και δεν θυμάμαι.

>Οι χαρακτήρες είναι θεωρητικά ίδιοι και τοποθετήθηκαν
>και πάλι για λόγους συμβατότητας, αφού οι κατασκευαστές 
>γραμματοσειρών πάντα έβαζαν κάθετους τόνους στο μονοτονικό 
>σετ και όριζαν εκ νέου το πολυτονικό με οξείες. Κατά τη 
>γνώμη μου, κάκιστα, και μακάρι να το ακολουθούσαν όλοι αλλά  
>πρακτικά συμβαίνει ακριβώς το αντίθετο. Κοιτάξτε μια 
>απλή αναζήτηση στο google:

Το τι σύμβολο θα χρησιμοποιηθεί στη γραμματοσειρά, κάθετη γραμμή, πλάγια, κύκλος, τρίγωνο ρόμβος κ.λπ., είναι θέμα σχεδιασμού της γραμματοσειράς και δείχνει πάντα το ίδιο πράγμα, που τονίζεται η λέξη. Και εγώ έχω γραμματοσειρές με οξεία σε μορφή κάθετης γραμμής, πλάγιας, κύκλου, ακανόνιστο σχήμα κ.λπ.

>για πολυτονονικά:
>-ἀνθρώπου (με τόνο αντί για οξεία)   443 αποτελέσματα
>-ἀνθρώπου (με οξεία πολυτονικού) 7970 αποτελέσματα
>και για αρχαία (Όμηρος):
>-ὑπερίονος (με τόνο) 3 αποτελέσματα
>-ὑπερίονος (με οξεία) 81 αποτελέσματα

Όταν γράφεις "τόνο" εννοείς τα τονούμενα από το βασικό σετ και όταν γράφεις "οξεία" από το εκτεταμένο;
Έκανα μιά βλακεία, έδινα τη δυνατότητα στον Πολυτονιστή να επιλέγει ο χρήστης από πού θα πάρει τα τονούμενα (οξεία), μπορούσε δηλαδή να επιλέξει να τα παίρνει από το βασικό σετ ή το εκτεταμένο. Μέρος αυτής της διαφοράς πιθανώς προέκυψε από αυτό, άλλοι έγραφαν έτσι και άλλοι αλλιώς. Άλλες διαφορές προέκυψαν από άλλα αντίστοιχα προγράμματα από το εξωτερικό που έκανα την ίδια δουλειά. Πολλά προβλήματα προέρχονται από το εξωτερικό, ο καθένας κάνει ότι θέλει βάζει τους χαρακτήρες όπου θέλει, τους παράγει όπως θέλει και έχουμε αυτή τη στιγμή μία μεγάλη ποικιλία από κωδικοσελίδες πολυτονικού. Ευτυχώς ήρθε το Unicode. Ο οδηγός της MS πάντως κάνει αυτό που προτείνω, με είχαν ρωτήσει τότε πώς να το υλοποιήσουν.

>Ένα άλλο επιχείρημα υπέρ της χρησης του πολυτονικού σετ για πολυτονικά 
>είναι ότι μπορεί οι οξυνόμενοι χαρακτήρες του πολυτονικού να είναι ισοδύναμοι, 
>αλλά μήπως είναι δουλειά των κανόνων του unicode να κάνουν τη σχετική  
>αντικατάσταση; Κατά τον ίδιο τρόπο, όλα τα σημεία στιξης των ελληνικών 
>επαναλαμβάνονται  και σε άλλα σετ.

Δεν ξέρω τι είναι οι "κανόνες Unicode".
Τα προγράμματα γενικά που επεξεργάζονται κείμενα, πρέπει να θεωρούν ισοδύναμα και τους δύο επαναλαμβανόμενους χαρακτήρες.

>Εγώ αυτό που καταλαβαίνω από το παραπάνω κείμενο είναι ότι αφού (κακώς)
>οι γραμματοσειρές είναι έτσι, ο χρήστης θα πρέπει ή να επιλέγει προσεκτικά 
>γραμματοσειρά, ή απλά να έχει υπ'όψιν του ότι οι οξυνόμενοι πολυτονικοί 
>χαρακτήρες μπορεί να αντικατασταθούν (κάποια στιγμή, ίσως αυτόματα) 
>από τους ισοδύναμους μονοτονικούς.

Μία σωστή γραμματοσειρά ακολουθεί πιστά το Unicode έχει και τους χαρακτήρες και στις δύο θέσεις. Τέλος.

>Κανονικά, όταν γράφει κάποιος 
>πολυτονικά, θα πρέπει να βγαίνει το σύμβολο  του πολυτονικού σέτ, αφού 
>καλώς ή κακώς υπάρχει τέτοιο στο unicode, και είναι δουλειά των προγραμμάτων 
>Η/Υ να τους ταυτίζουν και των γραμματοσειρών να δείχνουν το σωστό. 
>Αλλιώς θα πρέπει απλά να καταργηθούν τα επιπλέον σύμβολα από το unicode.

Η ζωή θέτει τους κανόνες, δες το πρώτο επιχείρημα στην αρχή, σχετικά με την γραφή μονοτονικών με το πολυτονικό πληκτρολόγιο.

>Όταν για παράδειγμα κάποιος με πολυτονικό πληκτρολόγια θα σώσει ένα αρχείο

Πολύ σωστά, μπορεί να αποθηκευτεί αρχείο με όνομα που να περιέχει χαρακτήρα από το εκτεταμένο σετ; Στα Windows τουλάχιστον όχι, ούτε με διαλυτικά τόνο.

>ή θα κάνει μια αναζήτηση (μονοτονικής λέξης) στο δίκτυο. Κι αυτό γιατί δε μιλάμε 
>για έναν επεξεργαστή κειμένου ή έναν αυτόματο πολυτονιστή αλλά τη διάταξη 
>ολόκληρου του συστήματος.

Συμφωνώ απόλυτα.

>Απλά, αυτός που θα βάλει πολυτονικό πληκτρολόγιο, εννοείται ότι θα θέλει να 
>γράφει και "σωστά" πολυτονικά με όποιο μπέρδεμα μπορεί να παρουσιαστεί.
>Απλά προσπαθώ να ορίσω ποιά είναι τα "σωστά" πολυτονικά!

Σωστά πολυτονικά είναι αυτά που παρέχουν όλους τους χαρακτήρες στον ενδιαφερόμενο χωρίς παρενέργειες.

Φιλικά
Παναγιώτης Σιδηρόπουλος
---------------------------------------------
ΜΑΤΖΕΝΤΑ Ε.Π.Ε.
Μεθώνης 47-51 - 106 81 Αθήνα
Τηλέφωνο με αστική χρέωση από όλη την Ελλάδα:
801-11.711.711
Τηλέφωνο με ισχύουσες χρεώσεις για κλήση από
κινητό ή το εξωτερικό:
(+30) 210-33.03.920, 33.03.965
Τηλεομοιότυπο (Φαξ) (+30) 210-33.03.216
Προφίλ εταιρείας:
http://www.magenta.gr/gr/profile.htm
---------------------------------------------
http://www.magenta.gr info at magenta.gr
---------------------------------------------

-----Original Message-----
From: i18ngr-bounces at lists.hellug.gr [mailto:i18ngr-bounces at lists.hellug.gr] On Behalf Of Πιστιόλης Κωνσταντίνος
Sent: Thursday, July 28, 2005 5:17 PM
To: Panagiotis Sidiropoulos
Cc: i18ngr at lists.hellug.gr
Subject: Re: [I18NGR] Συμβατότητα Μονοτονικού-Πολυτονικού (ήταν Μονοτονικό σε GTK+ εφαρμογές, αναθεώρηση πολυτονικού...)


Την Thu, 28 Jul 2005 09:49:27 +0300,ο(η) Panagiotis Sidiropoulos  
<panos at magenta.gr> έγραψε/wrote:

> Αγαπητέ Κώστα,
>
> Μερικές σκέψεις για το θέμα.
>
>> Στα βασικά ελληνικά του unicode έχουν οριστεί
>> τονούμενοι χαρακτήρες (πχ 03AC για ά με τόνο),
>> οι οποίοι έχουν ξαναοριστεί στα εκτεταμένα
>> (πολυτονικά) (πχ 1F71 για ά με οξεία).
>> Οι χαρακτήρες αυτοί υποτίθεται ότι ταυτίζονται,
>> αλλά πρακτικά είναι διαφορετικοί. Από τη μια η
>> γραμματική λέει ότι ο τόνος του μονοτονικού είναι
>> η οξεία, αλλά οι γραμματοσειρές έχουν διαφορετικό
>> σύμβολο (ο τόνος είναι συνήθως μια τελεία η μια
>> κάθετη γραμμή, ενώ η οξεία μια πλάγια προς τα δεξιά).
>
> Όι εν λόγω διπλοί χαρακτήρες είναι ακριβώς ίδιοι, τοποθετήθηκαν δύο 
> φορές στην κωδικοποίηση Unicode από λάθος ή για λόγους που μας 
> "διαφεύγουν". Το λογικό για εμένα (όπως κάνουμε και στους 
> Πολυτονιστές), είναι να χρησιμποιήσουμε τους τονούμενους από το βασικό 
> σετ και όχι το εκτεταμένο. Στο εκτεταμένο απλώς υπάρχουν. Τώρα, άλλα 
> προγράμματα που συλλαβίζουν ή υποστηρίζουν ορθογραφικά, πρέπει να 
> θεωρούν και τις δύο θέσεις ισοδύναμες. Διαφορετική οξεία σε 
> γραμαμτοσειρές θα βρείς σε γραμματοσειρές κύρια από το εξωτερικό, π.χ. 
> Athena, οι οποίοι ποτέ δεν μπόρεσαν να μου εξηγήσουν για ποιο λόγο το 
> έκαναν. Η ΜΑΤΖΕΝΤΑ  και στις δύο θέσεις βάσει το ίδιο σύμβολο.

Οι χαρακτήρες είναι θεωρητικά ίδιοι και τοποθετήθηκαν και πάλι για λόγους συμβατότητας, αφού οι κατασκευαστές γραμματοσειρών πάντα έβαζαν κάθετους τόνους στο μονοτονικό σετ και όριζαν εκ νέου το πολυτονικό με οξείες. Κατά τη γνώμη μου, κάκιστα, και μακάρι να το ακολουθούσαν όλοι αλλά  
πρακτικά
συμβαίνει ακριβώς το αντίθετο. Κοιτάξτε μια απλή αναζήτηση στο google:

για πολυτονονικά:
-ἀνθρώπου (με τόνο αντί για οξεία)   443 αποτελέσματα
-ἀνθρώπου (με οξεία πολυτονικού) 7970 αποτελέσματα
και για αρχαία (Όμηρος):
-ὑπερίονος (με τόνο) 3 αποτελέσματα
-ὑπερίονος (με οξεία) 81 αποτελέσματα

Οι λέξεις αρχίζουν με ἀ με ψιλή και ὑ με δασεία, άρα σίγουρα δεν υπάρχουν μονοτονικά αποτελέσματα, απλά η συντριπτική πλειοψηφία χρησιμοποιεί τους οξυνόμενους χαρακτήρες του πολυτονικού σετ για πολυτονικά κείμενα. Γιατί είναι έτσι; ίσως απλά έχει μείνει από το unicode 1.0 που υπηρχε διαφορά τόνου και οξείας (κακώς πάλι), αλλά αυτό είναι μια πραγματικότητα!


Ένα άλλο επιχείρημα υπέρ της χρησης του πολυτονικού σετ για πολυτονικά  
είναι ότι
μπορεί οι οξυνόμενοι χαρακτήρες του πολυτονικού να είναι ισοδύναμοι, αλλά μήπως είναι δουλειά των κανόνων του unicode να κάνουν τη σχετική  
αντικατάσταση;
Κατά τον ίδιο τρόπο, όλα τα σημεία στιξης των ελληνικών επαναλαμβάνονται  
και σε
άλλα σετ.
Δείτε το σχετικά κείμενα
http://www.unicode.org/faq/greek.html
και λεπτομέρειες στο http://ptolemy.tlg.uci.edu/~opoudjis/unicode/unicode_gkbkgd.html#oxia

Εγώ αυτό που καταλαβαίνω από το παραπάνω κείμενο είναι ότι αφού (κακώς) οι γραμματοσειρές είναι έτσι, ο χρήστης θα πρέπει ή να επιλέγει προσεκτικά γραμματοσειρά, ή απλά να έχει υπ'όψιν του ότι οι οξυνόμενοι πολυτονικοί χαρακτήρες μπορεί να αντικατασταθούν (κάποια στιγμή, ίσως αυτόματα) από τους ισοδύναμους μονοτονικούς.


Τώρα, όσον αφορά τα glyphs των γραμματοσειρών, είναι η σωστότερη απόφαση (κατή τη γνώμη) να έχει τα ίδια σύμβολα και στα δυο σετ (ή ένα σύμβολο στο μονοτονικό σετ και η αντικατάσταση να γίνεται αυτόματα), όπως κάνει η  
ΜΑΤΖΕΝΤΑ,
αλλά αυτό είναι άλλο θέμα.
Δηλαδή, ο μονοτονικός και ο πολυτονικός χαρακτήρας μπορεί να φαίνονται το  
ίδιο,
μπορεί να είναι ισοδύναμοι, αλλά αυτό δε σημαίνει απαραίτητα ότι θα πρέπει  
να
καταργήσουμε τον έναν από τους δυο.
Κανονικά, όταν γράφει κάποιος πολυτονικά, θα πρέπει να βγαίνει το σύμβολο  
του
πολυτονικού σέτ, αφού καλώς ή κακώς υπάρχει τέτοιο στο unicode, και είναι δουλειά των προγραμμάτων Η/Υ να τους ταυτίζουν και των γραμματοσειρών να δείχνουν το σωστό. Αλλιώς θα πρέπει απλά να καταργηθούν τα επιπλέον σύμβολα από το unicode.

>
>> Το unicode λέει ότι οι χαρακτήρες είναι ισοδύναμοι,
>> αλλά πολλοί κατασκευαστές γραμματοσειρών ορίζουν
>> ξεχωριστά σύμβολα. Όταν συμβαίνει αυτό τότε ο
>> κατασκευαστής της γραμματοσειράς πρέπει να ορίζει
>> ξεχωριστά τους οξυνόμενους χαρακτήρες (όταν η γραμματοσειρά είναι 
>> πολυτονική). Είναι λοιπόν στα ευθύνη του προγραμματιστή και του 
>> χρήστη να ξεχωρίζουν τους οξυνόμενους από τους απλά τονούμενους 
>> χαρακτήρες, δηλαδή η πολυτονική διάταξη θα πρέπει να παράξει 
>> οξυνόμενους χαρακτήρες και η μονοτονική τονούμενους.
>
> Μέχρι τώρα εγώ προσωπικά δεν άκουσα για τέτοιες διαφορές, για 
> οξυνόμενα και απλώς τονούμενα φωνήεντα.
>
>> δεν είναι δυνατόν να χρησιμοποιούμε οξεία στο μονοτονικό
>> για όλους τους παραπάνω λόγους -η απλή λύση να τροποποιήσουν το 
>> προσωπικό .XCompose αρχείο τους μόνο οι απαιτητικοί χρήστες του 
>> πολυτονικού, ώστε να παράγει οξυνόμενους χαρακτήρες, είναι επικίνδυνη 
>> και άβολη. Αυτό επειδή η ανάμειξη οξειών και τόνων μπορεί να είναι 
>> εξαιρετικά βλαβερή, αφού οι χαρακτήρες είναι διαφορετικοί. Ένας
>> χρήστης που θα φτιάξει το πληκτρολόγιό του να παράγει
>> οξυνόμενους χαρακτήρες δεν θα μπορεί να κάνει ούτε
>> μια αναζήτηση στο google, και άπειρα μπερδέματα μπορεί
>> να γίνουν με τα ονόματα αρχείων.
>
> Μην μπλέκεις το χρήστη, έτσι αρχίζουν οι ασυμβατότητες. Προτείνω απλώς 
> να αγνοήσεις τα διπλά τονούμενα στο εκτεταμένο σετ.
Το ξέρω κι αυτό είναι που με ανησυχεί. Όταν για παράδειγμα κάποιος με πολυτονικό πληκτρολόγια θα σώσει ένα αρχείο, ή θα κάνει μια αναζήτηση (μονοτονικής λέξης) στο δίκτυο. Κι αυτό γιατί δε μιλάμε για έναν επεξεργαστή κειμένου ή έναν αυτόματο πολυτονιστή αλλά τη διάταξη ολόκληρου του συστήματος.

Απλά, αυτός που θα βάλει πολυτονικό πληκτρολόγιο, εννοείται ότι θα θέλει να γράφει και "σωστά" πολυτονικά με όποιο μπέρδεμα μπορεί να παρουσιαστεί. Απλά προσπαθώ να ορίσω ποιά είναι τα "σωστά" πολυτονικά!
>
>> Αυτό που θέλουμε είναι να ανεξαρτητοποιήσουμε την πολυτονική από τη 
>> μονοτονική διάταξη και το πρόβλημα είναι ότι και οι δυο παράγουν το 
>> νεκρό χαρακτήρα dead_acute (οξεία). Τυπικά, ο τόνος του μονοτονικού 
>> είναι η οξεία αλλά πρακτικά το μονοτονικό χρησιμοποιεί διαφορετικό 
>> τόνο και θα έπρεπε να είχε κάποιο dead_tonos ή 
>> dead_above_line_vertical, αλλά δεν υπάρχει τέτοιο σύμβολο στο XKB.
>
> Δεν μπορείς να το ανεξαρτητοποιήσεις διότι απλώς μπλέκονται ούτως ή 
> άλλως, τα άτονα δεν υπάρχουν στο εκτεταμένο σετ οπότε τα παίρνεις 
> ούτως ή άλλως από το βασικό σετ. Προτείνω να κάνεις το ίδιο και για τα 
> διπλά τονούμενα.
Απλά αν κάνω την ανεξαρτητοποίηση που σκέφτομαι, θα μπορεί ο κάθε χρήστης να πειράξει το προσωπικό του .XCompose αρχείο και να χρησιμοποιήσει όποιο σέτ χαρακτήρων θέλει (τις ρυθμίσεις θα τις έχω έτοιμες). Αν όμως δεν το κάνουμε απλά δεν θα έχει την επιλογή.
>
>
> Για να διασταυρώσεις τα παραπάνω μπορείς να πάρεις τη γνώμη ενός 
> φιλολόγου.
Το λέει και στο  
http://ptolemy.tlg.uci.edu/~opoudjis/unicode/unicode_gkbkgd.html#oxia
  ....However, the Greek government decreed in 1986 that the tonos shall be  
the acute....
Αυτό που με ανησυχεί είναι ότι ίσως είναι πολύ νωρίς για να εφαρμοστεί  
στην πράξη αυτή
η απόφαση, αφού του unicode διατηρεί ακόμα διπλούς χαρακτήρες.

Τι λέτε;

Κώστας




More information about the I18ngr mailing list