όταν οι δίσκοι κάνουν σιωπηλά λάθη τι μας σώζει?

Nick Demou ndemou at gmail.com
Mon Sep 13 01:14:37 EEST 2010


===λακωνικά===

μου έτυχε ένας δίσκος να κάνει σιωπηλά λάθη εγγραφής με αποτέλεσμα παρότι
είχα RAID5 να πάρω 2 filesystems στο χέρι και να σηκώνω για πολλές-πολλές
ώρες backups (το πρόβλημα υπήρχε για ~4 μέρες με αποτέλεσμα τα πρόσφατα
backups να είναι επίσης corrupted - μεγάλο σπάσιμο)

Το ερώτημα φυσικά είναι τι μπορώ να κάνω για να μην το ξαναπάθω? Π.χ. μήπως
υπάρχει τρόπος να έχω 3εις φθηνούς SATA δίσκους στους οποίους ΚΑΙ να γράφω
τα πάντα εις τριπλούν ΚΑΙ να τα διαβάζω εις τριπλούν για να έχω error
detection και error correction[1]? Κάποιος άλλος τρόπος? Υπάρχει  filesystem
για linux που τουλάχιστον κάνει online checksum ελέγχο στα δεδομένα που
γράφει / διαβάζει?

===με λεπτομέρειες===

Πριν χρόνια ανακάλυψα το RAID και νόμισα ότι ήταν μαγικό.
Μετά από ένα rm -rf σε λάθος φάκελο κατάλαβα γρήγορα ότι δεν αντικαθιστά το
backup.
Μετά από ένα κεραυνό που έκαψε δύο δίσκους ταυτόχρονά κατάλαβα ότι η ζωή
είναι σκληρή.
Μετά από ένα πρόβλημα δίσκου ο οποίος αργούσε τρομερά να γράψει αλλά χωρίς
να αποτυγχάνει είδα το σύστημα μου να γίνεται τόσο απελπιστικά αργό που στο
τέλος πάτησα το RESET και έχασα ένα ολόκληρο virtual machine κατάλαβα ότι
ουτέ καν από απλές βλάβες δεν με σώνει (ναι ντρέπομαι γιατί δεν είχα
ενεργοποιήσει το magic SysRq).
Και εκεί που νόμιζα ότι έχω δει πολλά την προηγούμενη εβδομάδα συνέβη το
εξής:
Και το / και το /home partition ενός server με RAID 5 (3x500GB SATA HDs σε
έναν RAID controler των 250,00 ευρώ) διαλύθηκε τελείως επειδή ένας δίσκος
δυσλειτουργούσε σιωπηλά. Σιωπηλά εννοώ πως το λειτουργικό και ο controler
νόμιζαν ότι οι εγγραφές γινόντουσαν κανονικά αλλά ο δίσκος μια στο τόσο
έγραφε μπαρμπούτσαλα (τον δίσκο τον έχω κρατήσει ακόμα στο συρτάρι - αν
κανείς έχει περιέργεια και περισσότερο χρόνο απο μένα με χαρά να τον δώσω).
Το test του κατασκευαστή έβγαλε τον δίσκο "damaged" στο πρώτο δευτερόλεπτο
αλλά τι να το κάνεις όταν το RAID νόμιζε ότι είναι alive and trustworthy και
δεν το πέταξε ποτέ εκτός array.

Το τραγικό είναι ότι στις διακοπές διάβαζα εγκυκλοπαιδικά για θέματα Hard
Disk reliability και τώρα βλέπω το ένα από τα πιο άσχημα σενάρια να
ξετυλίγετε μπροστά μου (silent corruption).

_____________________
[1] η λογική λέει ότι 9 στις 10 φορές θα έχω corruption μόνο στον ένα δίσκο
και ότι ξέρω σε ποιον επειδή 2 στα 3 copies συμφωνούν. Αν έχω corruption δε
δύο δίσκους ταυτόχρονα κάνω recover manualy. Αν έχω και στους 3εις πέρνω
τηλέφωνο ένα φίλο και πάμε παραλία για ούζα -- δεν είναι μέρα για δουλειά.
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.hellug.gr/pipermail/linux-greek-users/attachments/20100913/57223a39/attachment.html>


More information about the Linux-greek-users mailing list