[I18NGR] Συμβατότητα Μονοτονικού-Πολυτονικού (ήταν Μονοτονικό σε GTK+ εφαρμογές, αναθεώρηση πολυτονικού...)

Thu Jul 28 23:21:31 EEST 2005

Διάβασα και το γράμμα του κ. Σιδηρόπουλου (τώρα και του Βασίλη) και 
απαντώ εδώ.

Συνοψίζοντας, το πρόβλημα που έχουμε αυτή τη στιγμή με τη γραφή 
πολυτονικού στο X.org (Linux) είναι ότι ο χρήστης δεν μπορεί να γράψει 
την οξεία, παρά μόνο τον τόνο. Είναι τεχνικό το πρόβλημα της αδυναμίας 
γραφής της οξείας και είμαστε στο σημείο εκείνο που προσπαθούμε να 
αποφασίσουμε αν ο χρήστης θα έχει τη δυνατότητα να βάλει και την οξεία, 
αν το επιθυμεί.

Ο Αλέξανδρος και ο Βασίλης αναφέρουν ότι δεν χρειάζεται να κάνουμε κάτι 
διότι το ά (με οξεία) είναι ισοδύναμο (equivalent) με το ά (με τόνο) 
κατά το πρότυπο Unicode, οπότε οι εφαρμογές που ακολουθούν το πρότυπο 
πρέπει να συμπεριφέρονται σαν να είναι ο χαρακτήρας ά (με τόνο). Όπως 
είναι τώρα, η διάταξη για πολυτονικό σε X.org δίνει ά (με τόνο).

1. Συμβαίνει συχνά το φαινόμενο της ισοδυναμίας;
Ναι, για παράδειγμα, η άνω τελεία "·" (U+00B7) υπάρχει αρκετές φορές στο 
πρότυπο Unicode, υπάρχει δε και στο μπλοκ των Ελληνικών (μονοτονικό) ως 
U+0387. Αν κάποιος γράφει U+00B7 σε ελληνικό κείμενο, δεν πρέπει να 
υπάρχει πρόβλημα από την εφαρμογή. Για παράδειγμα, ο Βασίλης στην 
απάντησή του χρησιμοποίησε την άνω τελεία· αν κάνετε «copy-paste» στο 
http://people.w3.org/rishida/scripts/uniview/ (κουτί «Cut & paste») και 
πατήστε «Enter», θα δείτε ότι όντως είναι U+00B7.

2. Πως λύνουν το πρόβλημα τα Windows;
Το νεκρό πλήκτρο ";" εξακολουθεί να βάζει τον τόνο στα πολυτονικά ενώ ο 
χρήστης πρέπει να χρησιμοποιήσει το νέο νεκρό πλήκτρο "q" για να βάλει 
την οξεία. Με αυτόν το τρόπο, υπάρχει η επιλογή στον τελικό χρήστη να 
επιλέξει (=το μπαλάκι πάει στον τελικό χρήστη).

3. Ο Παναγιώτης αναφέρει για το βασικό σετ και το εκτεταμένο σετ στο 
πρότυπο Unicode για τα ελληνικά. Στα αρχεία του X.org υπάρχει το 
λεγόμενο variant «extended» (έτσι δεν λέγεται;) που έχει όμως σχέση με 
το μονοτονικό και είναι για την γραφή. Είναι ορολογία για δύο 
διαφορετικά πράγματα.
Βασικό σετ:
http://www.unicode.org/charts/PDF/U0370.pdf
http://www.alanwood.net/unicode/greek.html
Εκτεταμένο σετ:
http://www.unicode.org/charts/PDF/U1F00.pdf
http://www.alanwood.net/unicode/greek_extended.html

4. Το Google ξέρει ότι ά και ά είναι ισοδύναμα;
Όχι, (τουλάχιστον όχι ακόμα). Δείτε
http://www.google.com/search?q=%CE%AC  (0xCEAC, το ά με τόνο, 
κωδικοποίηση UTF-8)
http://www.google.com/search?q=%E1%BD%B1 (0x1FBB, το ά με οξεία, 
κωδικοποίηση UTF-8)

Τι να κάνουμε;
Διαβάζοντας όσα έχουν λεχθεί, είμαι της άποψης ότι μιας και θα κάνουμε 
μερικές βελτιώσεις στην υποστήριξη του πολυτονικού (αναδιάταξη για τα 
διαλυτικά, προσθήκη δυνατότητας για γραφή π.χ. των Ϡ Ϟ Ϛ), θα μπορούσαμε 
να βάλουμε και τη δυνατότητα να γράφει ο τελικός χρήστης και την οξεία.
Το νέο νεκρό πλήκτρο θα μπορούσε να είναι μακριά από το ";", για 
παράδειγμα το "`" (πάνω από το Tab), ή το q όπως και σε WinXP.
Η τελική επιλογή θα είναι του χρήστη και το όλο θέμα το περιγράφουμε 
στην τεκμηρίωση που ετοιμάζουμε (http://planet.hellug.gr/misc/polytonic/).
Έτσι, τόσο το GNOME, όσο και το KDE θα είναι σε θέση να υποστηρίξουν ότι 
υποστηρίζουν σε καλό βαθμό το πολυτονικό σύστημα για τους χρήστες που το 
χρειάζονται. Η υποστήριξη αυτή φυσικά πάει και στις διανομές με τις 
οποίες απασχολείται/αναπτύσσει ο καθένας μας (Debian, Fedora, SuSE, κτλ).

Δυστυχώς, οι όποιες αλλαγές (x.org, gtk+, κτλ) δεν γίνονται άμεσα και 
χρειάζεται γενικά έντονη επικοινωνία με «upstream».
Θα χρειαστεί συνολική βοήθεια καθώς και lobbying. Συχνά οι αναφορές 
σφάλματος στο bugzilla κάθονται καιρό πριν εφαρμοστούν.
Είμαστε σε θέση να:
α. φτιάξουμε «patches» ως προς την έκδοση CVS του X.org για κάθε βελτίωση;
β. υποβολή ως αναφορές σφάλματος (bug reports) στο bugzilla.freedesktop.org;
γ. επικοινωνία με άτομα που σχετίζονται με το X.org με λογαριασμό CVS 
για commit (Βασίλης, Αλέξανδρος, είχατε έρθει σε επαφή με π.χ. Sergey 
Udaltsov για τις προηγούμενες ενημερώσεις;);
δ. ολοκλήρωση της τεκμηρίωσης γραφής πολυτονικού;

Θα ήθελα σχόλια εδώ (ναι, μέσα ή όχι, διότι το και το).

Φιλικά,
Σίμος

Υ.Γ.
Παρασκήνιο του ζητήματος τόνος-οξεία
α. Πάντα αναφερόμαστε στο πρότυπο Unicode (τυπικά κωδικοποίηση UTF-8)
β. Τα φωνήεντα με τόνο  ά έ ή ί ύ ό ώ
γ. Τα φωνήεντα με οξεία  ά έ ή ί ύ ό ώ
δ. Τα β) και γ) μπορεί να φαίνονται όμοια στον υπολογιστή σας, ανάλογα 
με την γραμματοσειρά. Γενικά η οξεία είναι λίγο πιο πλαγιαστή.
ε. Σε κάθε περίπτωση όμως, τα β) και γ) είναι διαφορετικά, διότι 
αντιστοιχούν σε διαφορετικούς χαρακτήρες βάσει του προτύπου Unicode.
στ. Για παράδειγμα, τόνος: ά (U+03AC)      οξεία: ά (U+1FBB)

Αλέξανδρος Διαμαντίδης wrote:

>* Πιστιόλης Κωνσταντίνος [2005-07-28 02:31]:
>  
>
>>Μπορούμε να αλλάξουμε το νεκρό πλήκτρο του τόνου στο XKB από
>>dead_acute σε dead_abovedot;
>>    
>>
>
>Νομίζω ότι θα έχουμε πολύ περισσότερα προβλήματα απ' ότι ωφέλη...
>
>  
>
>>(dead_tonos δεν υπάρχει, μήπως θα μπορούσαμε να βάλουμε;)
>>    
>>
>
>Πολύ πιθανόν... αλλά καλύτερα να μην το κάνουμε. Νομίζω το μέρος για να
>ρωτήσουμε είναι στη λίστα xkb at listserv.bat.ru - ή να ανοίξουμε κάποιο
>bug στο bugs.freedesktop.org...
>
>  
>
>>Στα βασικά ελληνικά του unicode έχουν οριστεί τονούμενοι χαρακτήρες
>>(πχ 03AC για ά με τόνο), οι οποίοι έχουν ξαναοριστεί στα εκτεταμένα
>>(πολυτονικά) (πχ 1F71 για ά με οξεία).
>>    
>>
>
>Αυτό ήταν βλακεία του ΕΛΟΤ...
>
>  
>
>>Το unicode λέει ότι οι χαρακτήρες είναι ισοδύναμοι, αλλά πολλοί
>>κατασκευαστές γραμματοσειρών ορίζουν ξεχωριστά σύμβολα.
>>    
>>
>
>Κατά την ταπεινή μου γνώμη, αυτό είναι bug των γραμματοσειρών, και
>δημιουργεί προβλήματα σαν κι αυτά που αντιμετωπίζεις... Η λύση είναι να
>υπάρχουν δυο εκδόσεις της γραμματοσειράς, μια μονοτονική και μια
>πολυτονική - μέχρι να αρχίζουν να υποστηρίζονται τα OpenType Features ή
>άλλοι μηχανισμοί «έξυπνων» γραμματοσειρών, που επιτρέπουν στην ίδια
>γραμματοσειρά να έχεις τέτοιου είδους επιλογές.
>
>  
>
>>-Τα πολυτονικά κείμενα δεν είναι σωστά, οπότε υπάρχει πρόβλημα στα
>>προγράμματα που διαβάζουν πολυτονικά κείμενα (μηχανές αναζήτησης,
>>διορθωτές, ορθογράφους, λεκτικούς αναλυτές για πχ. αρχαία κλπ)
>>    
>>
>
>Unicode, κεφάλαιο 3, εδάφιο C9:
>
># C9 A process shall not assume that the interpretations of two
># canonical-equivalent character sequences are distinct.
># 
>#   · The implications of this conformance clause are twofold. First, a
># process is never required to give different interpretations to two
># different, but canonical-equivalent character sequences. Second, no
># process can assume that another process will make a distinction between
># two different, but canonical-equivalent character sequences.
># 
>#   · Ideally, an implementation would always interpret two
># canonical-equivalent character sequences identically. There are
># practical circumstances under which implementations may reasonably
># distinguish them.
>
>Ενδιαφέρον είναι επίσης και το εξής:
>
>http://www.w3.org/TR/charmod-norm/
>
>Δες και το εξής:
>
>http://www.twardoch.com/download/polishhowto/kreska.html
>
>Η πολωνική οξεία κανονικά είναι πιο όρθια από την λατινική, αλλά στο
>Unicode είναι ο ίδιος χαρακτήρας. Νομίζω το ίδιο ισχύει και στα
>Ουγγρικά...
>
>Τέλος, σύμφωνα με την ελληνική γραμματική, ο τόνος που χρησιμοποιείται
>στο μονοτονικό είναι η οξεία. Δεν υπάρχει διαφορετικός μονοτονικός
>τόνος. Αν σε κάποιες μονοτονικές γραμματοσειρές η οξεία δεν είναι
>πλαγιαστή γραμμούλα αλλά βούλα, τριγωνάκι ή κάτι άλλο, αυτό είναι
>σχεδιαστική επιλογή.
>
>  
>
>>Η προτεινόμενη λύση
>>-------------------
>>Αυτό που θέλουμε είναι να ανεξαρτητοποιήσουμε την πολυτονική από τη
>>μονοτονική διάταξη και το πρόβλημα είναι ότι και οι δυο παράγουν το
>>νεκρό χαρακτήρα dead_acute (οξεία).
>>    
>>
>
>Ακόμα κι αν αρχίσουμε εμείς να γράφουμε συστηματικά τα πολυτονικά ελληνικά
>με τους χαρακτήρες με "OXIA" και τα μονοτονικά με αυτούς με "TONOS",
>αυτό δε σημαίνει ότι ο υπόλοιπος κόσμος θα μας ακολουθήσει. Αντί
>γι' αυτό θα πρέπει να διορθωθούν τα προγράμματα ώστε να δουλεύουν σωστά
>με το Unicode, και να αντιμετωπίζουν πχ. το U+03B1, το U+1F71 και το
><U+03B1 U+0301> ισοδύναμα (για παράδειγμα μπορούν να περνάνε το κείμενο
>κατά την είσοδο από κανονικοποίηση). 
>
>  
>
>>dead_ogonek (δασεία)
>>dead_horn (ψιλή)
>>    
>>
>
>Α, παρεμπιπτόντως, να πω την αμαρτία μου: Αυτά δεν έχουν καμιά σχέση με
>ψιλές και δασείες - το horn χρησιμοποιείται στα Βιετναμέζικα και το
>ogonek στα Πολωνικά. Τα διάλεξα τελείως αυθαίρετα. Κανονικά μάλλον θα
>έπρεπε να καταχωρηθούν δυο νέα σύμβολα. Και γι' αυτό ίσως πρέπει να
>επικοινωνήσουμε με τους αρμόδιους...
>
>  
>
>>Είναι πολύ σημαντικό να λύσουμε αυτό το πρόβλημα, καθώς αποτελεί πολύ
>>μεγάλη δυσφήμιση για το linux!
>>    
>>
>
>Έχεις συναντήσει συγκεκριμένες τέτοιες περιπτώσεις; Σε άλλα συστήματα
>πώς δουλεύει το πράγμα; Τα προβλήματα είναι κοινά παντού, αφού
>οφείλονται σε «ατέλειες» του Unicode...
>
>  
>