Pdf και ελληνικό text
Alexandros Diamantidis
adia at hellug.gr
Mon Jul 5 17:04:02 EEST 2004
* Παναγιώτης Κρανιδιώτης <kranidiotis at vatica.org> [2004-07-03 16:01]:
> Γνωρίζει κανείς κάποιο τρόπο εξαγωγής text απο ελληνικό κείμενο που
> βρίσκεται μέσα σε κάποιο pdf; Το pdf2text δεν υποστηρίζει (τουλάχιστον εγώ
> δεν τα κατάφερα) ελληνικό κείμενο παρα μόνο αγγλικά. Επίσης σε περιβάλλον
> windows που δοκίμασα με copy paste το ίδιο αποτέλεσμα. Άρα δεν είναι
> πρόβλημα του Linux μονο. Γνωρίζει κάποιος περισσότερα;
Για το xpdf και το pdf2text, ίσως πρέπει να εγκαταστήσεις ένα πακετάκι
με τους πίνακες για την ελληνική κωδικοποίηση - δες τα "Language Support
Packages" στο:
http://www.foolabs.com/xpdf/download.html
Αφού όμως δε δούλεψε ούτε με copy-paste με τον Adobe Reader στα Windows,
μάλλον το αρχείο δεν είναι σωστό για να μπορείς να εξαγάγεις το κείμενο:
στα PDF υπάρχουν κωδικοί για τα glyphs των γραμμάτων, όχι για τους
χαρακτήρες. Για να μπορείς να ανακτήσεις το κείμενο, πρέπει τα glyphs να
έχουν κάποια στάνταρ ονόματα που συνιστά η Adobe, ή να περιέχει και το
κείμενο εξτρά. Αν το PDF που έχεις δεν ακολουθεί αυτές τις προδιαγραφές,
δεν μπορείς να πάρεις τα κείμενο...
--
Αλέξανδρος Διαμαντίδης * adia at hellug.gr
More information about the Linux-greek-users
mailing list