daemon monitoring [flame]

Alexandros Kosiaris alex at noc.ntua.gr
Sat Nov 17 19:53:20 EET 2007


V13 wrote:
> On Friday 16 November 2007, Alexandros Kosiaris wrote:
>> Κακώς. Οι υπηρεσία πέφτουν μερικές φορές και μόνες τους. Υπάρχουν και
>> προγραμματιστικά λάθη που μπορεί να γίνονται triggered σε πολύ δύσκολο να
>> εξομοιωθούν συνθήκες. Λαμβάνουν χώρα τόσο σπάνια που ο μόνος λόγος που
>> υπάρχουν είναι να συμβούν ακριβώς την ώρα που κοιμάσαι ή χειρότερα είσαι
>> διακοπές.
> 
> ... opos rotisa idi, exeis kati poio sygkekrimeno os paradeigma?

Έδωσα ήδη μερικά. Τι ακριβώς θες; εκδόσεις και προγράμματα;
Πάρε ακόμη ένα. Clamav 0.88 + clamav milter 0.88 + sendmail 8.14.3 σε FreeBSD 6.1 
+ κίνηση μερικών χιλιάδων e-mail την ώρα. Υπήρχαν περιπτώσεις που ο milter 
κόλλαγε(δεν τελειώνε ποτέ το scanning κάθε mail). Τέρμα κοινώς τα mail(τώρα που το 
ξανασκέφτομαι αυτό δεν είναι απαραίτητα κακό)  Προγραμματιστικό λάθος που στην 
έκδοση 0.90 δεν εμφανίζεται πια. Αλλά παρόλα αυτά χρειαζόταν ένα watchdog που να 
το παρακολουθεί και να το κάνει άμεσα restart μόλις κόλλαγε.

> 
>> Επίσης δεν καταλαβαίνω γιατί συγκρίνεις τόσο πολύ nagios με monit. Εχουν
>> τελείως διαφορετικό τρόπο deployment. Το monit εγκαθίσταται τοπικά σε κάθε
>> μηχάνημα που θες να κάνεις monitoring και όχι μόνο αλλά να έχεις και
>> self-healing. O κύριος ρόλος είναι το self-healing, όχι το monitoring.
> 
>   Indeed. Gia ayto kai den ta sygkrino. Apla ta anafero kai ta dyo os ergaleia 
> ta opoia se eidopoioyn gia to oti kati paei straba. Tipote parapano (kai den 
> exo kai kamia idiaiteri trela me to nagios).

Καλώς. Απλά από τα μέχρι τώρα σχόλια σου μου φαινόταν να πιστεύεις ότι το ένα 
μπορούσε να αντικαταστήσει το άλλο, το οποίο προφανώς δεν συμβαίνει. Συνήθως 
λειτουργούν συμπληρωματικά. Κακή κατανόηση από μέρους μου.

> 
>>>   Apo thn allh, theoro idiaitera shmantiko problima to na ksekinisei
>>> monos toy enas demoas thn ora poy ton exeis katebasei esy (exo faei ores
>>> me sxetiko peristatiko, epeidi to eixei ksekinisei kapoios allos kai den
>>> to eixa katalabei), epeidi ksexases to monit.
>> Ναι είναι σημαντικό πρόβλημα αυτό που περιγράφεις, αλλά φταίς εσύ που
>> ξέχασες το monit και όχι το monit.
> 
>   Den diafono. Alazei omos kati? Exeis symetasxei pote se omadikh diaxeirisi 
> mixanimaton? Ekei mporoyn na symboyn pragmata pera apo to diko soy elegxo.

Και δεν είναι η μόνη περίπτωση που μπορούν να συμβούν πράγματα πέρα το δικό σου 
έλεγχο. Αλλά παραμένει το απλό αξίωμα. Εσύ και οι υπόλοιποι που διαχειρίζεστε τα 
μηχανήματα είσαι απόλυτα υπεύθυνοι για το τι κάνουν αυτά. Εάν δεν ξέρετε να τα 
χειριστείτε και να συνενοηθείτε ώστε να μην τα κάνετε μεταξύ σας κουλουβάχατα 
είστε απόλυτα άξιοι της τύχης σας(όποια και εάν είναι αυτή, και ναι πονάει 
συνήθως). Είναι διαδικαστικό το θέμα πια. Δεν λύνεται από την παρουσία ή απουσία 
ενός software. Εάν μάλιστα τα κέρδη από την παρουσία του software υπερφαλαγγίζουν 
το κόστος του να προσέχεις και να έχεις συνεχώς στο μυαλό σου τέτοιες περιπτώσεις 
τότε δεν έχεις επιλογή

> 
>> Ένα μόνο; Εχω δεί το bind σε debian απλά να πεθαίνει χωρίς λόγο και
>> αιτία(το δύσκολο να εντοπιστεί προγραμματιστικό λάθος που λέγαμε, που
>> λύθηκε με upgrade στην νεότερη έκδοση που είχε διορθωθεί) και που μέχρι να
>> διορθωθεί έπρεπε να έχω uptime.
>> Εχω δεί high-availability clusters να πρέπει κάπως να κάνουν self-healing
>> γιατί οι ρήτρες είναι στα 4 εννιάρια και αυτά είναι λεφτά που είναι κρίμα
>> να χάνονται επειδή κοιμόμουν στις 3 το πρωί.
> 
>   Milas gia kati entelos diaforetiko apo oti syzitoysame. An to girisoyme sto 
> HA tote alazoyn entelos oi synthikes. An stirizeis to HA soy sto monit kai se 
> ena mixanima mono, tote mallon exeis sobarotero problima. Oso gia to bind, 
> epeidi ta problimata den periorizontai sto idio to mixanima alla mplekontai 
> kai oi diktyakes diakopes, *PANTA* xrisimopoieis kai secondary DNS servers. 
> Otidipote allo einai imimetro kai den armozei se periptoseis opoy theleis na 
> leitoyrgei synexos.

Ποιος μίλησε για HA και ένα μηχάνημα; Είπα HA cluster. Αυτό όμως δεν σημαίνει οτι 
δεν πρέπει όταν σκάει τυχαία μία υπηρεσία σε ένα μηχάνημα του cluster να μένει 
κάτω. Πρέπει να γίνεται τουλάχιστον μία προσπάθεια να ξανασηκωθεί και βέβαια να 
ενημερωθείς.

Τώρα βέβαια εάν η περίπτωση που συζητούσαμε μέχρι στιγμής είναι κάποιος 
ερασιτέχνης που παίζει ε τότε είμαστε εκτός θέματος. Αλλά δεν μου δόθηκε από την 
πορεία της συζήτησης τέτοια εντύπωση.

> 
>   Apo ekei kai pera, eisai sigouros oti to bind pethene xoris logo kai pos den 
> itan kapoio worm, h kapoios poy dokimaze ena remote exploit? To bind exei 
> arketa sobari istoria sto sygkekrimeno thema.

Οχι δεν είμαι σίγουρος για τίποτε από τα παραπάνω. Αλλα στην συγκεκριμένη 
περίπτωση δεν με ένοιαζε. Δεν ήμουν ο admin και δεν είχα καθόλου χρόνο αλλά ούτε 
και κίνητρο να ασχοληθώ. Έφερα απλά τον πυροσβεστήρα, έσβησα και έβαλα ανιχνευτές 
καπνού και ψεκαστήρια στα ταβάνια(ναι, χωρίς μελέτη, χωρίς κέρδος, απλά ως χάρη. 
Και όσο το ξανασκέφτομαι και πολλά έκανα)

> 
>> Εχω δεί Directory Servers που είναι backbone 10 υπηρεσιών απλά να σκάνε
>> όταν λαμβάνουν συγκεκριμένα corrupted πακέτα που εμφανίζονται μία φορά το
>> μήνα στο δίκτυο.
> 
>   Afto moy akoygetai san FUD^1000. Kati poio sygkekrimeno? Mipos milas gia 
> windows? (den anaferthika pote se windows)

Nope, ούτε εγώ αναφέρθηκα σε Windows ποτέ. Sun ΟΝΕ Directory Server έκδοση 4.1 
(τότε λεγόταν Netscape Iplanet Directory Server) + solaris 7 + ενα ελαφρά περίεργο 
search filter.

> 
>> Οπως βλέπεις δεν υπάρχουν μόνο τα πολύ εμφανή προβλήματα που αναφέρεις και
>> που όντως είναι ρόλος εσένα και του nagios να παρακολουθείς. Υπάρχουν και
>> εκείνα τα καταραμένα που συμβαίνουν μία φορά το μήνα ή το δίμηνο και που
>> δεν μπορείς να τα εντοπίσεις εύκολα και που δεν αξίζουν τον κόπο την
>> αναβάθμιση στην τελευταία έκδοση του λογισμικού που μπορεί να τα λύνει αλλά
>> μπορεί να σου βάζει άλλα 5.
> 
>   Kiomos den to eida. Exeis kapoio allo paradeigma poy na min einai gia 
> windows, poy na min exei na kanei me High Availability kai to opoio na soy 
> exei symbei?

Το έδωσα λίγο πιο πάνω.

> 
>   Ayto poy eipe o Ricudis kai ena allo poy eipe o Stoilis (ektos listas) einai 
> pragmatika paradeigmata, alla exoyn na kanoyn me proprietary, non-opensource 
> programmata, opote kai os gnoston allazoyn oi synthikes. Ekei, mh mporontas 
> na kaneis kati kalytero, prospatheis na antimetopiseis to opoiodipote 
> problima anti na to lyseis.

Και εάν δεν μπορείς (γιατι δεν έχεις γνώσεις προγραμματισμού) ή δεν έχεις κίνητρο 
(ας πούμε κακό του κεφαλιού σου) ή κυρίως δεν έχεις χρόνο γιατί δουλεύεις δύο 
δουλειές και έχεις γυναίκα και παιδί και δεν σε πληρώνουν για να ασχολείσαι με 
προβλήματα που βγάζουν "αυτά τα δικά σας τα ανοικτά" (όπως είναι η ατάκα) μία φορά 
το δίμηνο;

Αυτές οι περιπτώσεις(τουλάχιστον κάποιες) μπαίνουν στη λίστα σου ή μόνο τα 
non-opensource επιτρέπονται;

Οπως ίσως γίνεται εμφανές προσπαθώ απλά να σου στρίψω λίγο το πρίσμα για να δεις 
το θέμα και από μία άλλη οπτική γωνία. Δεν είναι μονοδιάστατο το θέμα αλλά 
πολυδιάστατο και τρελά εξαρτώμενο από τις συνθήκες.

-- 
Alexandros Kosiaris     Network Management Center , NTUA
e-mail : alex at noc.ntua.gr
Public Key Fingerprint :
D6B1 0634 BE65 719C 6C95  7492 8201 4B46 C478 F074

-------------- next part --------------
A non-text attachment was scrubbed...
Name: smime.p7s
Type: application/x-pkcs7-signature
Size: 5200 bytes
Desc: S/MIME Cryptographic Signature
URL: <http://lists.hellug.gr/pipermail/linux-greek-users/attachments/20071117/4837e7d9/attachment.bin>


More information about the Linux-greek-users mailing list