Re: Τί κάνω όταν υπάρχουν errors στο smartctl;

Fri Mar 9 21:22:48 EET 2012

2012/3/9 Antonis Christofides <anthony at itia.ntua.gr>
>
> Κοιτάζω δυο soft RAID5 που έχω και βλέπω με το smartctl ότι ένας δίσκος
> σε καθένα είχε βγάλει κάτι errors (2 στον ένα, 5 στον άλλο) πριν κανένα
> χρόνο. (Στον ένα είναι UNC=uncorrected read error, όλα στον ίδιο sector,
> ενώ στον άλλο δεν καταλαβαίνω ακόμα το είδος του σφάλματος.)
>
> 1) Πρέπει να αλλάζω το δίσκο με το που βγάζει το παραμικρό error, ή
> μπορώ να έχω κάποια ανοχή;

μπα, για αυτό έχεις RAID: για να μην ανησυχείς τόσο πολύ. Με μια
σημείωση όμως: να θυμάσαι πως όταν κάποια στιγμή χτυπήσει ο ένας από
τους δίσκους το σύστημα μπορεί κάλλιστα να τραβήξει φρίκη, να κολλήσει
και να χρειαστεί την επέμβαση σου και όταν την χρειαστεί να πήξεις
ατελείωτα για μερικές ώρες. Αυτό συμβαίνει διότι συχνά οι δίσκοι
--τουλάχιστον οι τυπικοί sata για τους οποίους έχω αρκετή εμπειρία--
δεν πεθαίνουν πλήρως και απότομα αλλά παλεύουν επί πολύ ώρα για να
γράψουν και να διαβάσουν τα δεδομένα σου προκαλώντας στο ενδιάμεσο
τεράστια time outs τα οποία κάνουν το λινουξάκι σου πρακτικά να
κολλάει (το SW RAID στο ενδιάμεσο δεν σε βοηθάει σε τίποτα ως προς
αυτό το πρόβλημα). Μέτα πας και αλλάζεις τον δίσκο και εκεί μπορεί να
περάσεις μερικές ωρες αν είσαι λίγο άτυχος και δεν έχεις εμπειρία.
Οπότε διάβασε πολλά raid how to και κάνε δοκιμές σε κάποιο test system
για να είσαι έτοιμος.

> 2) Όταν ο δίσκος βγάνει UNC σε ένα σέκτορα, τότε ορθώς υποθέτω ότι αυτό
> θα αναφερθεί στο soft RAID5 του Linux, το οποίο θα διορθώσει την
> κατάσταση (δηλαδή θα ξαναγράψει τα δεδομένα στον ελαττωματικό σέκτορα);

<<<
Normally, RAID passively detects bad blocks. If a read error occurs,
the data is reconstructed from the rest of the array, and the bad
block is rewritten. If the block can not be rewritten, the defective
disk is kicked out of the active array.
Once the defective drive is replaced, reconstruction will cause all
blocks of the remaining drives to be read. If this process runs across
a previously undetected bad block on the remaining drives, another
drive will be marked as failed, making RAID5 unusable. The larger the
disks, the higher the odds that passive bad block detection will be
inadaquate. Therefore, with today's large disks it is important to
actively perform data scrubbing on your array.
>>>
-- http://en.gentoo-wiki.com/wiki/RAID/Software#Data_Scrubbing