pdf apodeltiosis hellug

Αλέξανδρος Διαμαντίδης adia at hellug.gr
Sun Nov 7 03:33:51 EET 2004


* zakinthinos at freemail.gr [2004-11-04 10:39]:
> στο http://lists.hellug.gr/pipermail/apodeltiosi/2004/thread.html
> υπαρχει η αποδελτιωση του συλλογου
[...]
> οπως ερχεται το pdf incoming να γινεται μια μετατροπη με ενα cgi 
> που θα καλει το pdf2html ?

Νομίζω τεχνικά δεν είναι πολύ δύσκολο να καλείται το pdf2html, αλλά
αμφιβάλλω αν το αποτέλεσμα θα είναι το επιθυμητό. Τα PDF αυτά περιέχουν
τα αποκόμματα σκαναρισμένα, με γράμματα σε διάφορα μεγέθη και
γραμματοσειρές, και μερικές φορές και με φόντο όχι τελείως άσπρο.

Το pdf2html λογικά θα μετατρέπει το κείμενο του PDF σε html, αλλά σε
αυτά τα PDF μόνο ο τίτλος του εντύπου απ' όπου προέρχονται είναι σε
κείμενο. Για να μετατραπούν τα σκαναρισμένα άρθρα σε κείμενο, χρειάζεται
OCR. Νομίζω δεν υπάρχει κάποιο ελεύθερο OCR που να υποστηρίζει Ελληνικά,
και επιπλέον για να δουλέψει αυτόματα δεν είναι και τόσο ιδανικές οι
συνθήκες.

-- 
Αλέξανδρος Διαμαντίδης * adia at hellug.gr




More information about the Linux-greek-users mailing list