Xalase o diskos?

Antonis Christofides anthony at itia.ntua.gr
Wed Aug 25 13:29:47 EEST 2010


Έχω ένα Debian με soft RAID 5 τριών δίσκων, και μια μέρα φαίνεται ότι
χάλασε ένας δίσκος (WD Caviar SE 16 750 GB, WD7500AAKS). Πολύ ωραία
πήγαν όλα. Πήγε σε degraded mode, μου έστειλε email, έτρεξα ένα
badblocks στο δίσκο, είδα ότι κολλάει κάθε λίγο και λιγάκι, τον
άλλαξα, έκανα partition τον καινούργιο, τον πρόσθεσα στο RAID, τον
συγχρόνισε. (Ευχαριστώ και τη λίστα, και κυρίως τον V13, που με είχε
βοηθήσει να τον στήσω πριν 2 χρόνια όταν έκανα τα πρώτα μου βήματα σε
soft RAID.)

Το ερώτημα είναι τώρα αν ο αφαιρεθείς δίσκος είναι όντως
προβληματικός. Όταν τον έβγαλα έκαιγε και δεν μπορούσα να τον αγγίξω
πάνω από μισό δευτερόλεπτο, ενώ τώρα που δουλεύει για δοκιμές σε άλλο
μηχάνημα σχεδόν μια μέρα, μπορώ να τον αγγίξω για 5 δευτερόλεπτα.
Υπάρχει πιθανότητα να μην έχει χαλάσει αλλά να τον πείραξε η ζέστη;

Έχω τρέξει πλήρως το badblocks (read-only test) 8 φορές χωρίς
πρόβλημα, και κάποιες ακόμα αλλά χωρίς να φτάσει ως το τέλος. Μια από
αυτές κόλλησε για λίγο, ακούστηκε ο χαρακτηριστικός ήχος των retries,
έβγαλε στο syslog κάμποσες φορές το παρακάτω, και μετά συνέχισε. (Ήταν
σαφέστατα σε ΟΚ θερμοκρασία όταν συνέβη αυτό.)

Aug 25 10:34:20 riggia kernel: [77100.134395] ata5.00: exception Emask 
0x10 SAct 0x1 SErr 0x4010000 action 0xe frozen
Aug 25 10:34:20 riggia kernel: [77100.134402] ata5.00: irq_stat 
0x00400040, connection status changed
Aug 25 10:34:20 riggia kernel: [77100.134408] ata5: SError: { PHYRdyChg 
DevExch }
Aug 25 10:34:20 riggia kernel: [77100.134414] ata5.00: failed command: 
READ FPDMA QUEUED
Aug 25 10:34:20 riggia kernel: [77100.134424] ata5.00: cmd 
60/80:00:80:2b:25/00:00:01:00:00/40 tag 0 ncq 65536 in
Aug 25 10:34:20 riggia kernel: [77100.134426] res 
40/00:04:80:2b:25/00:00:01:00:00/40 Emask 0x10 (ATA bus error)
Aug 25 10:34:20 riggia kernel: [77100.134431] ata5.00: status: { DRDY }
Aug 25 10:34:20 riggia kernel: [77100.134439] ata5: hard resetting link
Aug 25 10:34:25 riggia kernel: [77105.288049] ata5: SATA link up 1.5 
Gbps (SStatus 113 SControl 310)
Aug 25 10:34:25 riggia kernel: [77105.289688] ata5.00: configured for 
UDMA/133
Aug 25 10:34:25 riggia kernel: [77105.289701] ata5: EH complete

Αυτή ήταν η μόνη φορά. Κανένα άλλο πρόβλημα στις περίπου 20 ώρες που
έτρεχα badblocks.

Δεν έχω δοκιμάσει ακόμα write test, γιατί αναρωτιόμουν το εξής:
Υπάρχει πιθανότητα το write test να είναι εντάξει, αλλά το read only
test να αποτυγχάνει, επειδή σε ένα σημείο της μαγνητικής επιφάνειας
έχει δημιουργηθεί προσωρινό πρόβλημα (να σβήστηκε για το x/y/z/ω λόγο
αυτό που ήταν γραμμένο εκεί), χωρίς να υπάρχει φυσική βλάβη;

Τέλος, αν υποθέσουμε ότι ο δίσκος είναι στην εγγύηση (είναι δύο ετών
και κάτι ψιλών), υπάρχει περίπτωση να μην μου τον αλλάξουν επειδή στις
δοκιμές δεν βγάζει πρόβλημα;



More information about the Linux-greek-users mailing list