Pdf και ελληνικό text

Frixos Kopsacheilis tachyon at vivodinet.gr
Mon Jul 5 20:18:17 EEST 2004


Alexandros Diamantidis wrote:
> * Παναγιώτης Κρανιδιώτης <kranidiotis at vatica.org> [2004-07-03 16:01]:
> 
>>Γνωρίζει κανείς κάποιο τρόπο εξαγωγής text απο ελληνικό κείμενο που 
>>βρίσκεται μέσα σε κάποιο pdf; Το pdf2text δεν υποστηρίζει (τουλάχιστον εγώ 
>>δεν τα κατάφερα) ελληνικό κείμενο παρα μόνο αγγλικά. Επίσης σε περιβάλλον 
>>windows που δοκίμασα με copy paste το ίδιο αποτέλεσμα. Άρα δεν είναι 
>>πρόβλημα του Linux μονο. Γνωρίζει κάποιος περισσότερα;
> 
> 
> Για το xpdf και το pdf2text, ίσως πρέπει να εγκαταστήσεις ένα πακετάκι
> με τους πίνακες για την ελληνική κωδικοποίηση - δες τα "Language Support
> Packages" στο:
> 
> http://www.foolabs.com/xpdf/download.html
> 
> Αφού όμως δε δούλεψε ούτε με copy-paste με τον Adobe Reader στα Windows,
> μάλλον το αρχείο δεν είναι σωστό για να μπορείς να εξαγάγεις το κείμενο:
> στα PDF υπάρχουν κωδικοί για τα glyphs των γραμμάτων, όχι για τους
> χαρακτήρες. Για να μπορείς να ανακτήσεις το κείμενο, πρέπει τα glyphs να
> έχουν κάποια στάνταρ ονόματα που συνιστά η Adobe, ή να περιέχει και το
> κείμενο εξτρά. Αν το PDF που έχεις δεν ακολουθεί αυτές τις προδιαγραφές,
> δεν μπορείς να πάρεις τα κείμενο...
> 

Screenshot, apothikeysh kai OCR processing gia kathe selida...
An thes to keimeno TOSO poly, that is...;)

ΕΘΝΙΚΗ ΕΛΛΑΔΟΣ ΓΕΙΑ ΣΟΥ!!!!

-- 
Frixos "I/We/Gaia" Kopsachilis




More information about the Linux-greek-users mailing list