Αναζήτηση στα Ελληνικά: Google
Αλέξανδρος Διαμαντίδης
adia at hellug.gr
Sat Dec 6 18:54:40 EET 2003
Λίγο καθυστερημένη απάντηση, αλλά μια και άκουσα το όνομά μου...
> Konstantinos Margaritis wrote:
> >Δηλαδή έχει την ίδια βαρύτητα η λέξη skårgärden με την skargarden?
Δανική δεν είναι αυτή η λέξη; Τα γράμματα a, å και a θεωρούνται
διαφορετικά γράμματα, και όχι το ίδιο γράμμα με τόνο, οπότε λογικό είναι
να τα ξεχωρίζει και το Google.
* Giannis Stoilis <giannis at stoilis.gr> [2003-12-03 20:16]:
> Τα ελληνικά από την άλλη, έχουν μοναδικούς χαρακτήρες που δεν
> συναντάμε σε άλλη γλώσσα. Έχουμε ολόδικό μας encoding, ενώ οι
> υπόλοιποι άλλοι μοιράζονται ένα.
Το Google μάλλον τα μετατρέπει όλα σε Unicode και καλά κάνει - το ότι
έχουμε δικό μας encoding δεν είναι προτέρημα! Άλλωστε, δεν έχουμε ένα:
Μπορεί να υπάρχει το επίσημο του ΕΛΟΤ (ΕΛΟΤ 928 ή ISO 8859-7) αλλά ένα
μεγάλο μέρος του κειμένου στο δίκτυο είναι σε codepage 1253. Όσο για
τους άλλους, δε μοιράζονταν όλοι το ίδιο: παλιά υπήρχε το Latin 1 για τις
δυτικοευρωπαϊκές γλώσσες, τώρα βγήκε και το Latin 0 (ISO 8859-15) που
έχει και το σύμβολο του ευρώ, το Latin 2 για τις ανατολικοευρωπαϊκές
γλώσσες, το Latin 5 για τα Τούρκικα, κ.ο.κ. Ευτυχώς τώρα με το Unicode
μπορούμε να τα ξεχάσουμε όλα αυτά (σχεδόν).
> >Παραπονιόμαστε κι εμείς... φαντάσου να πρέπει να φτιάξεις το google
> >για κινέζικα...
>
> Χμμ, ο Διαμαντίδης ξέρει γιαπωνέζικα... Αλέξανδρε ακούς; Τι παίζει με
> αυτά;
Δεν ξέρω ακόμα, δυο μήνες έχω που μαθαίνω! Ξέρω την αλφαβήτα και φράσεις
του τύπου «η γάτα είναι κάτω απ' το τραπέζι» ;-)
Και για να μη μείνετε με την απορία πώς λέγεται το τελευταίο:
猫はテーブルの下にいます (νέκο βα τέεμπουρου νο σιτά νι ιμάς)
Η πλάκα είναι ότι έβαλα την παραπάνω φράση στο Google να δω τι θα
βγάλει, και μου έβγαλε μόνο δυο σελίδες για ιάπωνες που μαθαίνουν Γαλλικά!
Κάτι παίζει με τα Γαλλικά και τις γάτες ;-)
Όπως φαίνεται, υπάρχει κάποια ειδική αντιμετώπιση για τα Γιαπωνέζικα και
τα Κινέζικα: κανονικά οι γλώσσες αυτές γράφονται χωρίς κενά ανάμεσα στις
λέξεις. Αν ψάξεις στο Google για μια φράση χωρίς κένα, τη βρίσκει. Αν
γράψεις τους χαρακτήρες χωρισμένους με κενά, βρίσκει όλες τις σελίδες
που περιέχουν αυτούς τους χαρακτήρες άσχετα με το σε ποια φράση
εμφανίζονται. Φαίνεται ότι καταχωρούν στο ευρετήριό τους κάθε κινέζικο
χαρακτήρα σαν ξεχωριστή λέξη, και όταν ψάχνεις για πολλούς χαρακτήρες
στη σειρά, τους αναζητά σα φράση, όπως όταν βάζεις εισαγωγικά σε μια
ελληνική ή αγγλική φράση.
Παρεμπιπτόντως, μόλις πρόσεξα κάτι άλλο: Ο Mozilla που έχω (1.5b)
υποστηρίζει διεθνοποιημένα ονόματα domain! Δοκιμάστε να πάτε σε
κάποιο domain με ελληνικά γράμματα, και θα το μετατρέψει στην ανάλογη
κωδικοποίηση. Στην κωδικοποίηση αυτή, τα μικρά/κεφαλαία δεν έχουν
σημασία, οι τόνοι όμως μετράνε. Πχ.:
www.σκύλος.gr: www.xn--vxacmnd1d.gr
www.σκυλος.gr: www.xn--vxacmndj.gr
www.ΣΚΥΛΟΣ.gr: www.xn--vxacmndj.gr
www.σκυλοσ.gr: www.xn--vxacmndj.gr
Για περισσότερες πληροφορίες:
RFC 3490, 3491, 3492
http://idn.isc.org/
http://www.icann.org/committees/idn/
http://www.i-d-n.net/
Αναρωτιέμαι πότε θα μπορούμε να καταχωρήσουμε ελληνικά ονόματα στο .gr.
--
Αλέξανδρος Διαμαντίδης * adia at hellug.gr
More information about the I18ngr
mailing list