Αναζήτηση στα Ελληνικά: Google
Giannis Stoilis
giannis at stoilis.gr
Wed Nov 26 17:02:23 EET 2003
(Ζητάω εκ των προτέρων συγνώμμη για το cross-posting. Αν παραπονεθεί
κάποιος, το κόβω...)
evris wrote:
> koitakse, aneksartita me tous tonous kai pos afto paizei me to google, pou
> ante pes ekei telika (tha) ginetai to zitima ton ellinikon einai akoma pio
> anomalo sti geniki tou periptosi akoma kai ektos google.
[mega, super, ultra *SNIP*]
Την μηχανή αναζήτησης του gourmet.gr την γνωρίζω καλά(αν και σταμάτησα
να σας επισκέπτομαι τελευταία, λόγο έλειψης χρόνου)
Ο αλγόριθμός σου είναι πιθανότατα ο πλέον κατάλληλος για το gourmet.gr,
αλλά αν εφαρμοστεί στο Google, θα έχουμε πρόβλημα. Το θέμα δεν είναι ότι
δεν μας επιστρέφει τίποτα μια αναζήτηση με συμβατικό τρόπο, αλλά το ότι
μας επιτρέφει άσχετα πράγματα. Αν εφαρμοστεί ο τρόπος που περιγράφεις,
θα επιστρέψει περισσότερα σωστά αποτελέσματα, αλλά θα είναι χαμένα σε
ακόμα περισσότερα λάθος hits. O "θόρυβος" θα μεγαλώσει τρομερά.
Επίσης, αν παρατηρήσεις, το google δεν δέχεται αναζητήσεις για
περισσότερες από δέκα λέξεις ταυτόχρονα. Οπότε, σαν extra layer δεν
υπάρχει περίπτωση να δουλέψει, γιατί το δικό σου σύστημα μία λέξη την
κάνει τουλάχιστον πέντε. Αν δουλέψει, θα δουλέψει μόνο ΑΝ γίνει
integrade μέσα στο ίδιο τον αλγόριθμο του google. Ίσως να μην ειναι καν
δυνατό να μετατραπεί έτσι ο αλγόριθμός τους. Χώρια που αμφιβάλω αν θα το
κάνουν αυτό μονο για μας.
Τέλος, μήπως θα έπρεπε να κάνουμε μικρότερα βηματάκια; Τι μας απασχολεί
περισσότερο, η αστοχία λόγο λάθος κλήσης ή λόγο τονισμού;
Για τα ορθογραφικά λάθη, το απορρίπτω εξ αρχής. Δεν έχει νόημα να κάθετε
ο αλγόριθμος να σπάει το κεφάλι του επειδή ο χρήστης έκανε λάθος. Εδώ η
αγγλική αυτόματη διόρθωση που μου προτείνει το google λάθος διόρθωση
πολλές φορές λάθος, πόσο μάλλον για τα ελληνικά που είναι σαφώς πιο
περίπλοκα από τα αγγλικά.
Αυτά που είπα για τον "θόρυβο" ισχύει ακόμα και για την απλή εξίσωση των
τονισμένων και άτονων γραμμάτων ή κεφαλαίων και μικρών. Μήπως θα
χειροτερέψει την κατάσταση, αντί να την βελτιώσει; Πείτε μου ένα τρόπο
να το δοκιμάσουμε εμείς αυτό πριν προτείνουμε κάτι στο Google.
Αυτό που μου είπες για το layer, μου έδωσε μια ιδέα, αλλά δεν ξέρω κατά
πόσο είναι πραγματοποιήσιμο:
Να φτιάξουμε μια meta-seach engine, που:
- Να κάνει ο χρήστης submit το query του.
- Να κάνει την ανάλυση, και να παράγει 5 διαφορετικά queries
- Να εκτελεί τα queries ταυτόχρονα στο Google
- Να επεξεργάζεται τα αποτελέσματα
- Να στέλνει πίσω στον χρήστη τα επεξεργασμένα αποτελέσματα.
Θα μπορέσουμε, κατά την γνώμη σου, να πειραματιστούμε αξιόπιστα με τον
όποιο αλγόριθμο; Το κυριότερο πρόβλημα που βλέπω, είναι το page rank
κάθε σελίδας, που είναι proprietery ακόμα και ο τρόπος για να μάθεις
πόσο είναι. Το GoogleToolbar στο δείχνει, αλλά είναι το μόνο εργαλείο.
Τι γίνεται αν ένα από τα δευτερεύον query επιστρέψει μία σελίδα με
Pagerank 7/10 και ένα άλλο δευτερεύον query επιστρέψει εκατό σελίδες,
όπου η πρώτη έχει pagerank 2/10; Πως θα γνωρίζει ότι πρέπει να την βάλει
πάνω πάνω την μία σελίδα;
Μία λύση είναι να κάνει... round robin στα αποτελέσματα...
Τι ιδέες έχεις εσύ; Άλλος;
- Γιάννης Στοΐλης
More information about the Hellug
mailing list