[I18NGR] Συμβατότητα Μονοτονικού-Πολυτονικού (ήταν Μονοτονικό σε GTK+ εφαρμογές, αναθεώρηση πολυτονικού...)

Πιστιόλης Κωνσταντίνος pistiolis at ts.sch.gr
Fri Jul 29 01:20:04 EEST 2005


Την Thu, 28 Jul 2005 18:54:26 +0300,ο(η) Αλέξανδρος Διαμαντίδης  
<adia at hellug.gr> έγραψε/wrote:

> .. ... ...
>> Στα βασικά ελληνικά του unicode έχουν οριστεί τονούμενοι χαρακτήρες
>> (πχ 03AC για ά με τόνο), οι οποίοι έχουν ξαναοριστεί στα εκτεταμένα
>> (πολυτονικά) (πχ 1F71 για ά με οξεία).
>
> Αυτό ήταν βλακεία του ΕΛΟΤ...
>
> ... ... ...
>> Το unicode λέει ότι οι χαρακτήρες είναι ισοδύναμοι, αλλά πολλοί
>> κατασκευαστές γραμματοσειρών ορίζουν ξεχωριστά σύμβολα.
>
> Κατά την ταπεινή μου γνώμη, αυτό είναι bug των γραμματοσειρών, και
> δημιουργεί προβλήματα σαν κι αυτά που αντιμετωπίζεις... Η λύση είναι να
> υπάρχουν δυο εκδόσεις της γραμματοσειράς, μια μονοτονική και μια
> πολυτονική - μέχρι να αρχίζουν να υποστηρίζονται τα OpenType Features ή
> άλλοι μηχανισμοί «έξυπνων» γραμματοσειρών, που επιτρέπουν στην ίδια
> γραμματοσειρά να έχεις τέτοιου είδους επιλογές.
>
>> -Τα πολυτονικά κείμενα δεν είναι σωστά, οπότε υπάρχει πρόβλημα στα
>> προγράμματα που διαβάζουν πολυτονικά κείμενα (μηχανές αναζήτησης,
>> διορθωτές, ορθογράφους, λεκτικούς αναλυτές για πχ. αρχαία κλπ)
>
> Unicode, κεφάλαιο 3, εδάφιο C9:
>
> # C9 A process shall not assume that the interpretations of two
> # canonical-equivalent character sequences are distinct.
> #
> #   · The implications of this conformance clause are twofold. First, a
> # process is never required to give different interpretations to two
> # different, but canonical-equivalent character sequences. Second, no
> # process can assume that another process will make a distinction between
> # two different, but canonical-equivalent character sequences.
> #
> #   · Ideally, an implementation would always interpret two
> # canonical-equivalent character sequences identically. There are
> # practical circumstances under which implementations may reasonably
> # distinguish them.
>
Τα παραπάνω με πείθουν όπως επίσης και τα σχόλια του κ. Σιδηρόπουλου:
> ...έδινα τη δυνατότητα στον Πολυτονιστή να επιλέγει ο χρήστης από πού θα  
> πάρει τατονούμενα (οξεία), μπορούσε δηλαδή να επιλέξει να τα παίρνει από  
> το βασικό σετ ή τοεκτεταμένο.Μέρος αυτής της διαφοράς πιθανώς προέκυψε  
> από αυτό, άλλοι έγραφαν έτσι καιάλλοι αλλιώς. Άλλεςδιαφορές προέκυψαν  
> από άλλα αντίστοιχα προγράμματα από το εξωτερικό που έκανατην ίδια  
> δουλειά.Πολλά προβλήματα προέρχονται από το εξωτερικό, ο καθένας κάνει  
> ότι θέλει βάζειτους χαρακτήρεςόπου θέλει, τους παράγει όπως θέλει και  
> έχουμε αυτή τη στιγμή μία μεγάληποικιλία απόκωδικοσελίδες πολυτονικού.  
> Ευτυχώς ήρθε το Unicode. Ο οδηγός της MS πάντωςκάνει αυτό που προτείνω,
> με είχαν ρωτήσει τότε πώς να το υλοποιήσουν.
Βέβαια η M$ φρόντισε να βάλει και ξεχωριστό νεκρό πλήκτρο για την οξεία!

> ... ... ... ...
> Ακόμα κι αν αρχίσουμε εμείς να γράφουμε συστηματικά τα πολυτονικά  
> ελληνικά
> με τους χαρακτήρες με "OXIA" και τα μονοτονικά με αυτούς με "TONOS",
> αυτό δε σημαίνει ότι ο υπόλοιπος κόσμος θα μας ακολουθήσει. Αντί
> γι' αυτό θα πρέπει να διορθωθούν τα προγράμματα ώστε να δουλεύουν σωστά
> με το Unicode, και να αντιμετωπίζουν πχ. το U+03B1, το U+1F71 και το
> <U+03B1 U+0301> ισοδύναμα (για παράδειγμα μπορούν να περνάνε το κείμενο
> κατά την είσοδο από κανονικοποίηση).

Συμφωνώ, δε λέω ότι είναι σωστό να θεωρούμε τους χαρακτήρες διαφορετικούς.
Αυτό όμως που με βάζει σε σκέψεις είναι ότι όλος ο κόσμος φαίνεται
(τουλάχιστον από το google) να το κάνει έτσι. Αφού ακόμα και το google
δεν ακολουθεί το πρότυπο και διαχειρίζεται διαφορετικά τους U+17F1 U+03AC.
Οι περισσότερες γραμματοσειρές πλήν της magenta έχουν διαφορετικές
γλυφές για τους χαρακτήρες, και μέχρι να αρχίσει να χρησιμοποιείται το
unicode σωστά θα υπάρχει πρόβλημα. Τότε βέβαια δεν θα έχει καμμία διαφορά
ποιον χαρακτήρα θα επιλέξουμε, απλά σκέφτομαι μήπως ο πολύς κόσμος
έχει "ξαναορίσει" το σωστό, άσχετα με το τι λέει το Unicode!

Δηλαδή δεν με νοιάζει η κακή όψη των γραμματοσειρών, αλλά το γεγονός
ότι υπάρχει πρόβλημα με τις μηχανές αναζήτησης και τα άλλα σχετικά
προγράμματα.

>
> Έχεις συναντήσει συγκεκριμένες τέτοιες περιπτώσεις; Σε άλλα συστήματα
> πώς δουλεύει το πράγμα; Τα προβλήματα είναι κοινά παντού, αφού
> οφείλονται σε «ατέλειες» του Unicode...
>
εννοείς ατέλειες στον τρόπο που ο καθένας το υλοποιεί!


Τέλος πάντων, όλα τα παραπάνω με πείθουν ότι πιο πολλά προβλήματα θα
δημιουργήσουμε παρά θα λύσουμε. Μάλλον είναι καλύτερα να συνεχίσουμε
με το βασικό σέτ ελληνικών και να περιμένουμε κάποια στιγμή να διορθωθεί
η κατάσταση στη δημιουργία σωστών γραμματοσειρών και στη σωστή επεξεργασία
(κανονικοποιημένου) κειμένου.
Όντως θα γίνει μπάχαλο, αφού ακόμα και το σύστημα αρχείων θεωρεί  
διαφορετικούς
χαρακτήρες τους οξυνόμενους από τους ισοδύναμους τονούμενους.

Μέχρι τότε όμως παραμένουν τα προβλήματα τουλάχιστον στις μηχανές  
αναζήτησης.
Μήπως έχει νόημα να βγαίνουν οι οξυνόμενοι συνδυασμοί με ένα επιπλέον νεκρό
πλήκτρο, ώστε να μπορεί να τους χρησιμοποιήσει κάποιος όταν και αν
τους χρειαστεί; (είπαμε, ο κόσμος δεν είναι ιδανικός ακόμα)
Κάτι τέτοιο έχουν κάνει και τα win (έβαλαν την "οξεία" στο q).
Προτείνω το altgr-; που είναι εύκολο και αρκετά δύσχρηστο ώστε να μην
το χρησιμοποιήσει συστηματικά κανείς

Ή μήπως απλά να το αγνοήσουμε τελείως το πρόβλημα;


Φιλικά,
Κώστας


ΥΤ: Γενικά γράφω πολυτονικά και τέτοιου είδους προβλήματα τα έχω
"φάει πολλές φορές στη μάπα". Γι' αυτό πάντα ό,τι γράφω προς τα έξω
είναι σκέτο 8bit μονοτονικό κείμενο.




More information about the I18ngr mailing list