Αναζήτηση στα Ελληνικά: Google
Panayiotis Christodoulou
pchristo73 at yahoo.gr
Tue Dec 2 20:24:30 EET 2003
Στις Τρι 02 Δεκ 2003 02:22, ο/η Vasilis Vasaitis έγραψε:
> Αφού όλοι μπήκαν στον κόπο να αναφέρουν τη γνώμη τους επί του
> θέματος, ας αναφέρω κι εγώ τη δική μου...
>
> IMHO, το καλύτερο που έχει να γίνει είναι μια γενικότερη ενοποίηση:
> ενοποίηση των κεφαλαίων με τα πεζά (case-insensitive), ενοποίηση του
> σίγμα τελικού με το κανονικό, ενοποίηση των τονούμενων με τα μη
> τονούμενα, τόσο στα μονοτονικά όσο και στα πολυτονικά. Είναι πολύ πιο
> σημαντικό να μπορεί κάποιος να βρει πράγματα ανεξάρτητα με το πώς
> ακριβώς γράφτηκαν, παρά να κάνουμε τη ζωή μας δύσκολη για να
> εξυπηρετούνται μερικές παθολογικές περιπτώσεις (τα δέκα ζευγάρια
> λέξεων που διαφέρουν μόνο στον τόνο, το να ψάχνω συγκεκριμένη
> ανορθογραφία, κτλ.).
>
> Επίσης, το να υλοποιηθεί η αναζήτηση όπως λέω είναι εξαιρετικά
> εύκολο. Π.χ. οι τόνοι, δασείες κτλ. πετιούνται απλά μετατρέποντας το
> κείμενο σε εκείνο το normalization form του unicode που δεν επιτρέπει
> προκατασκευασμένους (precomposed) χαρακτήρες, και αγνοώντας τους
> χαρακτήρες που προσθέτουν τον τόνο (combining characters). Μετά, μια
> μετατροπή στα κεφαλαία λογικά κανονίζει και το τελικό σίγμα μαζί, ε
> και αυτό ήταν. Παιχνιδάκι.
Γιά δες το παρακάτω παράδειγμα:
Ας πούμε ότι ψάχνω για το «ΟΔΥΣΣΕΥΣ» σε αρχαία κείμενα. Θα έκανα,
υποθέτω, την εξής αναζήτησι:
Ὀδυσσεύς(με οξεία) OR Ὀδυσσεὺς(με βαρεία) OR Ὀδυσσεύς(με τόνο)
Αποτέλεσμα: 24 αποτ. σε τρεις σελ. από περ. 303 αποτ.
Με την δική σου λύσι η αναζήτησι θα ήταν πάνω-κάτω αντίστοιχη της εξής:
Ὀδυσσεύς(με οξεία) OR Ὀδυσσεὺς(με βαρεία) OR Ὀδυσσεύς(με τόνο) OR
Οδυσσεύς OR ΟΔΥΣΣΕΥΣ
Αποτέλεσμα: 261 αποτ. σε 28 σελ. από περ. 998 αποτ., πολλά εκ των οποίων
μονοτονικές αναφορές στον ομηρικό Οδυσσέα και πολλά άσχετα με τον
ομηρικό ή άλλον αρχαίο Οδυσσέα (ονόματα ξενοδοχείων, πλοίων, σύγχρονων
ανθρώπων, ποδοσφαιρικών ομάδων κ.λπ.). Επίσης σε μια τέτοια αναζήτησι
δεν θα ήμουν σίγουρος για το αν οι μονοτονικές σελίδες περιέχουν ή όχι
κάποιο αρχαίο κείμενο (σε πολυτονικό) για τον αρχαίο Οδυσσέα κι έτσι,
ίσως, αναγκαζόμουν να ψάξω σε όλες τις σελίδες οι οποίες αναφέρονται
στον ομηρικό Οδυσσέα.
Κι αυτά μόνο για την ονομαστική πτώσι.
Φαντάσου τώρα πόσες λέξεις έχουν παραμείνει αναλλοίωτες από την
αρχαιότητα έως σήμερα...
Υποθέτω, λοιπόν, ότι η λύσι που προτείνεις θα δημιουργήσει σοβαρά
προβλήματα σε όσους κάνουν αναζητήσεις σε αρχαία κείμενα.
--
Παναγιώτης Χριστοδούλου
pchristo73 at yahoo.gr
More information about the Linux-greek-users
mailing list