[I18NGR] Συμβατότητα Μονοτονικού-Πολυτονικού (ήταν Μονοτονικό σε GTK+ εφαρμογές, αναθεώρηση πολυτονικού...)
Αλέξανδρος Διαμαντίδης
adia at hellug.gr
Thu Jul 28 18:54:26 EEST 2005
* Πιστιόλης Κωνσταντίνος [2005-07-28 02:31]:
> Μπορούμε να αλλάξουμε το νεκρό πλήκτρο του τόνου στο XKB από
> dead_acute σε dead_abovedot;
Νομίζω ότι θα έχουμε πολύ περισσότερα προβλήματα απ' ότι ωφέλη...
> (dead_tonos δεν υπάρχει, μήπως θα μπορούσαμε να βάλουμε;)
Πολύ πιθανόν... αλλά καλύτερα να μην το κάνουμε. Νομίζω το μέρος για να
ρωτήσουμε είναι στη λίστα xkb at listserv.bat.ru - ή να ανοίξουμε κάποιο
bug στο bugs.freedesktop.org...
> Στα βασικά ελληνικά του unicode έχουν οριστεί τονούμενοι χαρακτήρες
> (πχ 03AC για ά με τόνο), οι οποίοι έχουν ξαναοριστεί στα εκτεταμένα
> (πολυτονικά) (πχ 1F71 για ά με οξεία).
Αυτό ήταν βλακεία του ΕΛΟΤ...
> Το unicode λέει ότι οι χαρακτήρες είναι ισοδύναμοι, αλλά πολλοί
> κατασκευαστές γραμματοσειρών ορίζουν ξεχωριστά σύμβολα.
Κατά την ταπεινή μου γνώμη, αυτό είναι bug των γραμματοσειρών, και
δημιουργεί προβλήματα σαν κι αυτά που αντιμετωπίζεις... Η λύση είναι να
υπάρχουν δυο εκδόσεις της γραμματοσειράς, μια μονοτονική και μια
πολυτονική - μέχρι να αρχίζουν να υποστηρίζονται τα OpenType Features ή
άλλοι μηχανισμοί «έξυπνων» γραμματοσειρών, που επιτρέπουν στην ίδια
γραμματοσειρά να έχεις τέτοιου είδους επιλογές.
> -Τα πολυτονικά κείμενα δεν είναι σωστά, οπότε υπάρχει πρόβλημα στα
> προγράμματα που διαβάζουν πολυτονικά κείμενα (μηχανές αναζήτησης,
> διορθωτές, ορθογράφους, λεκτικούς αναλυτές για πχ. αρχαία κλπ)
Unicode, κεφάλαιο 3, εδάφιο C9:
# C9 A process shall not assume that the interpretations of two
# canonical-equivalent character sequences are distinct.
#
# · The implications of this conformance clause are twofold. First, a
# process is never required to give different interpretations to two
# different, but canonical-equivalent character sequences. Second, no
# process can assume that another process will make a distinction between
# two different, but canonical-equivalent character sequences.
#
# · Ideally, an implementation would always interpret two
# canonical-equivalent character sequences identically. There are
# practical circumstances under which implementations may reasonably
# distinguish them.
Ενδιαφέρον είναι επίσης και το εξής:
http://www.w3.org/TR/charmod-norm/
Δες και το εξής:
http://www.twardoch.com/download/polishhowto/kreska.html
Η πολωνική οξεία κανονικά είναι πιο όρθια από την λατινική, αλλά στο
Unicode είναι ο ίδιος χαρακτήρας. Νομίζω το ίδιο ισχύει και στα
Ουγγρικά...
Τέλος, σύμφωνα με την ελληνική γραμματική, ο τόνος που χρησιμοποιείται
στο μονοτονικό είναι η οξεία. Δεν υπάρχει διαφορετικός μονοτονικός
τόνος. Αν σε κάποιες μονοτονικές γραμματοσειρές η οξεία δεν είναι
πλαγιαστή γραμμούλα αλλά βούλα, τριγωνάκι ή κάτι άλλο, αυτό είναι
σχεδιαστική επιλογή.
> Η προτεινόμενη λύση
> -------------------
> Αυτό που θέλουμε είναι να ανεξαρτητοποιήσουμε την πολυτονική από τη
> μονοτονική διάταξη και το πρόβλημα είναι ότι και οι δυο παράγουν το
> νεκρό χαρακτήρα dead_acute (οξεία).
Ακόμα κι αν αρχίσουμε εμείς να γράφουμε συστηματικά τα πολυτονικά ελληνικά
με τους χαρακτήρες με "OXIA" και τα μονοτονικά με αυτούς με "TONOS",
αυτό δε σημαίνει ότι ο υπόλοιπος κόσμος θα μας ακολουθήσει. Αντί
γι' αυτό θα πρέπει να διορθωθούν τα προγράμματα ώστε να δουλεύουν σωστά
με το Unicode, και να αντιμετωπίζουν πχ. το U+03B1, το U+1F71 και το
<U+03B1 U+0301> ισοδύναμα (για παράδειγμα μπορούν να περνάνε το κείμενο
κατά την είσοδο από κανονικοποίηση).
> dead_ogonek (δασεία)
> dead_horn (ψιλή)
Α, παρεμπιπτόντως, να πω την αμαρτία μου: Αυτά δεν έχουν καμιά σχέση με
ψιλές και δασείες - το horn χρησιμοποιείται στα Βιετναμέζικα και το
ogonek στα Πολωνικά. Τα διάλεξα τελείως αυθαίρετα. Κανονικά μάλλον θα
έπρεπε να καταχωρηθούν δυο νέα σύμβολα. Και γι' αυτό ίσως πρέπει να
επικοινωνήσουμε με τους αρμόδιους...
> Είναι πολύ σημαντικό να λύσουμε αυτό το πρόβλημα, καθώς αποτελεί πολύ
> μεγάλη δυσφήμιση για το linux!
Έχεις συναντήσει συγκεκριμένες τέτοιες περιπτώσεις; Σε άλλα συστήματα
πώς δουλεύει το πράγμα; Τα προβλήματα είναι κοινά παντού, αφού
οφείλονται σε «ατέλειες» του Unicode...
--
Αλέξανδρος Διαμαντίδης * adia at hellug.gr
More information about the I18ngr
mailing list