Wanted: Αρχείο ISO-8859-7.unicodeMap

Simos Xenitellis simos74 at gmx.net
Sun Feb 10 22:38:15 EET 2002


Την Κυρ, 10-02-2002 στις 14:45, ο/η Αλέξανδρος Διαμαντίδης έγραψε:
...
> > θέλει το αρχείο της κωδικοποίησης να έχει συγκεκριμένη μορφή. Στάλθηκε
> > γράμμα στη λίστα i18ngr για το θέμα αυτό
> 
> Δεν ξέρω αν μπορεί να βρεθεί κάπου έτοιμο αυτό το αρχείο, αλλά έφτιαξα
> ένα στη μορφή που είχε εκείνο που έστειλες. Το επισυνάπτω σ'αυτό το
> μήνυμα. Δεν κατάλαβα ακριβώς τι σημαίνουν οι γραμμές της μορφής:
> 
> 000c 000d 0c
> 0020 007e 20
> 
> (αυτές δηλαδή που έχουν στην αρχή δυο αριθμούς) και αντέγραψα αυτές που
> είχε στην αρχή το αρχείο, ενώ τις άλλες τις έβγαλα. Σημειωτέον ότι το
> αρχείο δεν κάνει αντιστοίχιση ένα προς ένα, αλλά αντιστοιχίζει
> χαρακτήρες Unicode σε ακολουθίες από bytes. Άφησα μέσα μερικές τέτοιες
> αντιστοιχίσεις που είχε το αρχείο που έστειλες, αν και μάλλον δεν είναι
> απαραίτητες για ελληνικό κείμενο.
> 
> > Το recode σταματάει αν δει κάποιο χαρακτήρα που δεν ανήκει
> > στην καθορισμένη κωδικοποίηση.
> 
> Η παράμετρος -f (force) λύνει αυτό το πρόβλημα.

Ευχαριστώ τους Αλέξανδρο, Δημήτρη και Βασίλη για τις απαντήσεις τους. 

Μόλις δοκίμασα το αρχείο που έστειλε ο Αλέξανδρος και το αποτέλεσμα
είναι πολύ ικανοποιητικό. Χρειάζονται ωστόσο μικρές ρυθμίσεις στο αρχείο
της κωδικοποίησης.

Α. Ως δοκιμαστικό αρχείο χρησιμοποιώ το
http://europa.eu.int/eur-lex/el/com/pdf/2002/com2002_0032el01.pdf

Β. Το αποτέλεσμα της μετατροπής με το pdftotext είναι το
http://hlp.sourceforge.net/TP/com2002_0032el01.txt

Σχόλια:
1) Ο χαρακτήρας "μ" δεν είναι κωδικοποιημένος.
2) Το ίδιο για το Ώ

Ενδεχομένως και άλλοι χαρακτήρες να έχουν πρόβλημα.

Υπάρχει κάπου κάποιο δοκιμαστικό αρχείο PDF με όλους τους ελληνικούς
χαρακτήρες για δοκιμή;

Γ. Δοκίμασα τη μετατροπή με "recode -f" και το αποτέλεσμα είναι
http://hlp.sourceforge.net/TP/com2002_0032el01-with-recode-f.txt

(Εντολή: pdftotext -enc UTF-8 com2002_0032el01.pdf - | recode -f
utf-8..iso-8859-7 > com2002_0032el01-with-recode-f.txt)

Δ. Ένα διαφορετικό πρόβλημα έχει να κάνει με το pdftotext. Φαίνεται να
μην απεικονίζει σωστά τα αρχεία PDF που κατασκευάστηκαν με "Acrobat
Distiller 3.01 for Windows" ενώ είναι μια χαρά με "Acrobat Distiller 5.0
(Windows)".
Παράδειγμα:
http://hlp.sourceforge.net/TP/el_502PC0007.txt

To PDFINFO στο αρχειό PDF από το οποίο προήλθε:
Title:        Microsoft Word -
DGtren-PE-COM_2002_7-SLOTSMODIFICATI_EL_ACTE.doc
Creator:      AdobePS5.dll Version 5.0
Producer:     Acrobat Distiller 3.01 for Windows
CreationDate: Fri Aug 11 02:02:04 1911
Tagged:       no
Pages:        8
Encrypted:    no
Page size:    595 x 842 pts (A4)
File size:    154630 bytes
Optimized:    no
PDF version:  1.2


Φιλικά,
σίμος



More information about the I18ngr mailing list