Xalase o diskos?
Antonis Christofides
anthony at itia.ntua.gr
Wed Aug 25 13:29:47 EEST 2010
Έχω ένα Debian με soft RAID 5 τριών δίσκων, και μια μέρα φαίνεται ότι
χάλασε ένας δίσκος (WD Caviar SE 16 750 GB, WD7500AAKS). Πολύ ωραία
πήγαν όλα. Πήγε σε degraded mode, μου έστειλε email, έτρεξα ένα
badblocks στο δίσκο, είδα ότι κολλάει κάθε λίγο και λιγάκι, τον
άλλαξα, έκανα partition τον καινούργιο, τον πρόσθεσα στο RAID, τον
συγχρόνισε. (Ευχαριστώ και τη λίστα, και κυρίως τον V13, που με είχε
βοηθήσει να τον στήσω πριν 2 χρόνια όταν έκανα τα πρώτα μου βήματα σε
soft RAID.)
Το ερώτημα είναι τώρα αν ο αφαιρεθείς δίσκος είναι όντως
προβληματικός. Όταν τον έβγαλα έκαιγε και δεν μπορούσα να τον αγγίξω
πάνω από μισό δευτερόλεπτο, ενώ τώρα που δουλεύει για δοκιμές σε άλλο
μηχάνημα σχεδόν μια μέρα, μπορώ να τον αγγίξω για 5 δευτερόλεπτα.
Υπάρχει πιθανότητα να μην έχει χαλάσει αλλά να τον πείραξε η ζέστη;
Έχω τρέξει πλήρως το badblocks (read-only test) 8 φορές χωρίς
πρόβλημα, και κάποιες ακόμα αλλά χωρίς να φτάσει ως το τέλος. Μια από
αυτές κόλλησε για λίγο, ακούστηκε ο χαρακτηριστικός ήχος των retries,
έβγαλε στο syslog κάμποσες φορές το παρακάτω, και μετά συνέχισε. (Ήταν
σαφέστατα σε ΟΚ θερμοκρασία όταν συνέβη αυτό.)
Aug 25 10:34:20 riggia kernel: [77100.134395] ata5.00: exception Emask
0x10 SAct 0x1 SErr 0x4010000 action 0xe frozen
Aug 25 10:34:20 riggia kernel: [77100.134402] ata5.00: irq_stat
0x00400040, connection status changed
Aug 25 10:34:20 riggia kernel: [77100.134408] ata5: SError: { PHYRdyChg
DevExch }
Aug 25 10:34:20 riggia kernel: [77100.134414] ata5.00: failed command:
READ FPDMA QUEUED
Aug 25 10:34:20 riggia kernel: [77100.134424] ata5.00: cmd
60/80:00:80:2b:25/00:00:01:00:00/40 tag 0 ncq 65536 in
Aug 25 10:34:20 riggia kernel: [77100.134426] res
40/00:04:80:2b:25/00:00:01:00:00/40 Emask 0x10 (ATA bus error)
Aug 25 10:34:20 riggia kernel: [77100.134431] ata5.00: status: { DRDY }
Aug 25 10:34:20 riggia kernel: [77100.134439] ata5: hard resetting link
Aug 25 10:34:25 riggia kernel: [77105.288049] ata5: SATA link up 1.5
Gbps (SStatus 113 SControl 310)
Aug 25 10:34:25 riggia kernel: [77105.289688] ata5.00: configured for
UDMA/133
Aug 25 10:34:25 riggia kernel: [77105.289701] ata5: EH complete
Αυτή ήταν η μόνη φορά. Κανένα άλλο πρόβλημα στις περίπου 20 ώρες που
έτρεχα badblocks.
Δεν έχω δοκιμάσει ακόμα write test, γιατί αναρωτιόμουν το εξής:
Υπάρχει πιθανότητα το write test να είναι εντάξει, αλλά το read only
test να αποτυγχάνει, επειδή σε ένα σημείο της μαγνητικής επιφάνειας
έχει δημιουργηθεί προσωρινό πρόβλημα (να σβήστηκε για το x/y/z/ω λόγο
αυτό που ήταν γραμμένο εκεί), χωρίς να υπάρχει φυσική βλάβη;
Τέλος, αν υποθέσουμε ότι ο δίσκος είναι στην εγγύηση (είναι δύο ετών
και κάτι ψιλών), υπάρχει περίπτωση να μην μου τον αλλάξουν επειδή στις
δοκιμές δεν βγάζει πρόβλημα;
More information about the Linux-greek-users
mailing list