Wanted: Αρχείο ISO-8859-7.unicodeMap

Αλέξανδρος Διαμαντίδης adia at hellug.gr
Mon Feb 11 11:59:00 EET 2002


* Simos Xenitellis <simos74 at gmx.net> [2002-02-10 20:38]:
> Μόλις δοκίμασα το αρχείο που έστειλε ο Αλέξανδρος και το αποτέλεσμα
...
> 1) Ο χαρακτήρας "μ" δεν είναι κωδικοποιημένος.
> 2) Το ίδιο για το Ώ

Ναι, και το "Δ" το ίδιο - κι αυτό γιατί το αρχείο χρησιμοποιούσε τις
τιμές Unicode για τα σύμβολα αντί για τους αντίστοιχους Ελληνικούς
χαρακτήρες. Επισυνάπτω ένα ανανεωμένο αρχείο με τις αντιστοιχίσεις για
το pdftotext. Βέβαια δεν είναι σίγουρο ότι κάποιο άλλο αρχείο PDF δε θα
έχει κάποια άλλη περίεργη αντιστοίχιση...

Θα το στείλω και στο δημιουργό του xpdf, αν θέλει να το βάλει κάπου.
Παρεμπιτόντως, η μορφή του αρχείου αντιστοιχίσεων περιγράφεται στο xpdfrc(5).

> Υπάρχει κάπου κάποιο δοκιμαστικό αρχείο PDF με όλους τους ελληνικούς
> χαρακτήρες για δοκιμή;
...
> Δ. Ένα διαφορετικό πρόβλημα έχει να κάνει με το pdftotext. Φαίνεται να
> μην απεικονίζει σωστά τα αρχεία PDF που κατασκευάστηκαν με "Acrobat
> Distiller 3.01 for Windows" ενώ είναι μια χαρά με "Acrobat Distiller 5.0

Το κακό είναι είναι ότι το να περιέχει κάποιο PDF σωστό καθαρό κείμενο
εναπόκειται στην καλή θέληση του προγράμματος που το γράφει, οπότε δεν
είναι σίγουρο ότι μπορούμε πάντα να το μετατρέψουμε. Όπως λέει και στις
οδηγίες του pdftotext:

       Some PDF files contain fonts  whose  encodings  have  been
       mangled  beyond  recognition.   There  is no way (short of
       OCR) to extract text from these files.

* Katsaloulis Panayotis <grad0307 at di.uoa.gr> [2002-02-10 23:03]:
> Gia eleg3e kai to pi.

Το συγκεκριμένο PDF δεν έχει πρόβλημα, αλλά έχεις δίκιο, όπως και για
τα ρ, κ, β, θ, φ... Τώρα τα πρόσθεσα κι αυτά.

-- 
Αλέξανδρος Διαμαντίδης * adia at egnatia.ee.auth.gr
-------------- next part --------------
000a 0a
000c 000d 0c
0020 007e 20
00a0 a0
00a3 a3
00a6 00a9 a6
00ab 00ad ab
00b0 00b4 b0
00b5 ec
00b7 b7
00bb bb
00bd bd
0251 e1
025b e5
0263 e3
0269 e9
0278 f6
0374 b4
037e 3b
0385 0389 b5
038a ba
038c bc
038e 038f be
0390 03a1 c0
03a3 03ce d3
03d0 e2
03d1 e8
03d2 d5
03d3 be
03d4 db
03d5 f6
03d6 f0
03d7 eae1e9
03da d3d4
03db f3f4
03f0 ea
03f1 f1
03f2 63
03f3 6a
2013 2d
2014 af
2019 a2
201b a1
2039 3c
203a 3e
2044 2f
20ac c5f5f1fe
20af c4f1f7
2122 544d
2126 d9
2206 c4
2212 2d
2219 b7
fb00 6666
fb01 6669
fb02 666c
fb03 666669
fb04 66666c


More information about the I18ngr mailing list