Pdf και ελληνικό text

Alexandros Diamantidis adia at hellug.gr
Mon Jul 5 17:04:02 EEST 2004


* Παναγιώτης Κρανιδιώτης <kranidiotis at vatica.org> [2004-07-03 16:01]:
> Γνωρίζει κανείς κάποιο τρόπο εξαγωγής text απο ελληνικό κείμενο που 
> βρίσκεται μέσα σε κάποιο pdf; Το pdf2text δεν υποστηρίζει (τουλάχιστον εγώ 
> δεν τα κατάφερα) ελληνικό κείμενο παρα μόνο αγγλικά. Επίσης σε περιβάλλον 
> windows που δοκίμασα με copy paste το ίδιο αποτέλεσμα. Άρα δεν είναι 
> πρόβλημα του Linux μονο. Γνωρίζει κάποιος περισσότερα;

Για το xpdf και το pdf2text, ίσως πρέπει να εγκαταστήσεις ένα πακετάκι
με τους πίνακες για την ελληνική κωδικοποίηση - δες τα "Language Support
Packages" στο:

http://www.foolabs.com/xpdf/download.html

Αφού όμως δε δούλεψε ούτε με copy-paste με τον Adobe Reader στα Windows,
μάλλον το αρχείο δεν είναι σωστό για να μπορείς να εξαγάγεις το κείμενο:
στα PDF υπάρχουν κωδικοί για τα glyphs των γραμμάτων, όχι για τους
χαρακτήρες. Για να μπορείς να ανακτήσεις το κείμενο, πρέπει τα glyphs να
έχουν κάποια στάνταρ ονόματα που συνιστά η Adobe, ή να περιέχει και το
κείμενο εξτρά. Αν το PDF που έχεις δεν ακολουθεί αυτές τις προδιαγραφές,
δεν μπορείς να πάρεις τα κείμενο...

-- 
Αλέξανδρος Διαμαντίδης * adia at hellug.gr




More information about the Linux-greek-users mailing list