Re: όταν οι δίσκοι κάνουν σιωπηλά λάθη τι μας σώζει?

Fri Sep 17 00:22:53 EEST 2010

2010/9/16 Christos Ricudis <ricudis at itc.auth.gr>:
> On 09/16/10 11:48, Nick Demou wrote:
>>
>> 2010/9/15 Christos Ricudis<ricudis at itc.auth.gr>:
>>>[...]
>>> Καλο ειναι οταν σας πεθαινει δισκος να μας λετε
>>> και τη μαρκα για να συγκεντρωνουμε anecdotal statistic evidence.
>>>
>>
>> τι νόημα έχει? Αποκλείεται από λίστες να μαζέψεις επαρκές και
>> αξιόπιστο δείγμα. Αλλά και να μαζέψεις φέτος ψοφάνε οι μεν και του
>> χρόνου οι δε. Δεν υπάρχουν και πολλοί κατασκευαστές. Πάντως αν έχεις
>> την περιέργεια εμένα ήταν ένας Seagate 1TB αγορασμένος πριν ~9μ.
>> Πάντως το PC έχει άλλους 2 ολόιδιους (RAID5) και προσωπικά δεν
>> σκέφτομαι να τους αλλάξω.
>>
>
> Το ζητημα ειναι περισσοτερο να αποφευγεις προβληματικες παρτιδες.

 χμμ... έχεις απόλυτο δίκαιο ... δεν το είχα σκεφτεί παρόλο που το έχω
δει το έργο ξανά στο παρελθόν (πουλούσα deskstart σε αθώους πολίτες)
και έχω διαβάσει για αυτό (HD reliability reports -- CERN)  - Αν το
θυμηθώ τη Δευτέρα που θα είμαι στο γραφείο θα αναφέρω και το
συγκεκριμένο μοντέλο

>>>
>>> Η τυπικη και δοκιμασμενη συνταγη για data reduncancy στις περιπτωσεις που
>>> φοβασαι τον ιδιο το δισκο, δεν ειναι ουτε drbd, ουτε checksumming, ουτε
>>> τιποτα, λεγεται RAID mirroring.
>>>
>>
>> τι εννοείς? Από όσα έχω δει σε RAID 1 δεν γίνεται έλεγχος κατά την
>> ανάγνωση αν συμφωνούν τα δύο αντίγραφα των δίσκων
>
> Γιατι σε νοιαζει αν συμφωνουν η οχι; Ο ενας απο τους δυο δισκους θα εχει
> γραψει κατω αυτο που πρεπει. Απο κει και περα ειναι απλα θεμα να
> παρακολουθεις το SMART monitoring για να παρεις χαμπαρι τι παιζει.

Σενάριο:
Στο block Ν του filesystem ο ένας δίσκος αποθηκεύει μπαρομπούτσαλα.
Λίγο μετά γίνεται ένα read του block N από τον προβληματικό δίσκο στην
μνήμη, τα δεδομένα τροποποιούνται και γράφονται τροποποιημένα
μπαρμπούτσαλα ΚΑΙ ΣΤΟΥΣ ΤΡΕΙΣ δίσκους. Στην καλύτερη περίπτωση ο admin
θα δει το email με το SMART error το επόμενο πρωί (αφότου έχει γίνει
και backup των μπαρμπούταλων). Στην χειρότερη περίπτωση δεν θα υπάρξει
SMART error για λίγες μέρες/μήνες/έτη ακόμα. Και όλα αυτά επειδή όταν
γράφανε το SW RAID κώδικα θεωρούσαν πως ένας δίσκος ή δουλεύει και το
ξέρεις ή δεν δουλεύει και το ξέρεις. Με βάση αυτή τη λανθασμένη
υπόθεση φαίνεται να ψηφίσανε δαγκωτό για αυξημένη ταχύτητα (διαβάζουν
διαφορετικά blocks από κάθε δίσκο ταυτόχρονα) αντί για το reliability
(διαβάζω και τα τρία copies ταυτόχρονα και κάνω σύγκριση voting for
the data that apear in 2 out of 3 disks).

Το φοβερό είναι πως μόλις λίγες μέρες νωρίτερα ένας προγραμματιστής
που έπαθε ακριβώς ότι κι εγώ αναζητά καθοδήγηση για να εισάγει στο
Linux SW RAID ακριβώς αυτή τη λειτουργία:

http://www.spinics.net/lists/raid/msg30018.html :
# After some frustration with RAID-5 finding mismatches and not being
# able to figure out which drive has the problem, I'm setting up a rather
# intricate [...] system.
# The intention is that 3 copies will be on line at any time (dropping to
# 2 in case of disk failure), [...]
# Anyway, one nice property of a 2-drive redundancy (3+-way mirror or
# RAID-6) is error detection: in case of a mismatch, it's possible to
# finger the offending drive.
# My understanding of the current code is that it just copies one mirror
# (the first readable?) to the others.  Does someone have a patch to vote
# on the data?  If not, can someone point me at the relevant bit of code
# and orient me enough that I can create it?

> Εγω εχω εναν 3ware ο οποιος με εχει σωσει. Κανει προληπτικα rebuilds, μου
> στελνει mail αμα κατι παει στραβα η αν το SMART αρχιζει να ξεφευγει απο τις
> παραμετρους που θεωρει υγιεις, αν του ανεβει πυρετος, αν αν αν. Και μολις
> μου χτυπησε καποιος δισκος σε ενα raid 5, τον εβγαλε offline και μου'στειλε
> mail να τον αλλαξω.

ΟΚ I'm almost sold -  θέλω να μάθω το μοντέλο και εύχομαι να μην
κοστίζει περισσότερο από τον server μου :)