最近よくHDDが死ぬ。本当によく死ぬ。
幸いにしても、このサーバーで同一ロットでくまれたRAID環境はほとんどノートラブルで、ほぼ3年〜4年目にして、ぽろぽろとディスクが死ぬ始めた。
今回で3本目。実は今年に入ってから2本目だ。
以前購入して使っていたIBMのHDDが半年で壊れて、リテール品だったので保証ということで、時期を大幅にずらして保証が切れる直前に交換。~そしたら、買収の後だったので、TOSHIBAのHDDが届いた。2013年製。
さらに使う予定も無く、予備ディスクとして回していたのだが、今回のHDDが壊れたので、前回及び今回でそのHDDを使用した。在庫化してから、3年近く予備ディスクとしてとられていた計算になる。そして、このシステムを作る前後に予備ディスクとして確保した物でもある。これで、在庫がつきてしまった。
にしても、今回はとてもすばらしい対応が出来たので記録。
Feb 21 03:19:34 backup1 pass0 at mfi0 bus 0 scbus0 target 0 lun 0 Feb 21 03:19:34 backup1 pass0: <ATA ST2000DL003-9VT1 CC3C> s/n 6YD1QGH1 detached Feb 21 03:19:34 backup1 (pass0:mfi0:0:0:0): Periph destroyed Feb 21 03:19:34 backup1 mfi0: 291263 (509339337s/0x0002/info) - Removed: PD 00(e0xfc/s0) Info: enclPd=fc, scsiType=0, portMap=00, sasAddr=1221000000000000,0000000000000000 Feb 21 03:19:34 backup1 mfi0: 291264 (509339337s/0x0002/info) - State change on PD 00(e0xfc/s0) from ONLINE(18) to FAILED(11) Feb 21 03:19:34 backup1 mfi0: 291265 (509339337s/0x0001/info) - State change on VD 00/0 from OPTIMAL(3) to DEGRADED(2) Feb 21 03:19:34 backup1 mfi0: 291266 (509339337s/0x0001/CRIT) - VD 00/0 is now DEGRADED Feb 21 03:19:34 backup1 mfi0: 291267 (509339337s/0x0001/info) - State change on VD 01/1 from OPTIMAL(3) to DEGRADED(2) Feb 21 03:19:34 backup1 mfi0: 291268 (509339337s/0x0001/CRIT) - VD 01/1 is now DEGRADED Feb 21 03:19:34 backup1 mfi0: 291269 (509339337s/0x0002/info) - State change on PD 00(e0xfc/s0) from FAILED(11) to UNCONFIGURED_BAD(1) Feb 21 03:21:03 backup1 su: tomo to root on /dev/pts/1
ディスクが壊れてアラートがあがり、2分以内にログインして状況確認。 pass0がいない。
[root@backup1 ~]# camcontrol devlist <ATA ST2000DM001-1CH1 CC43> at scbus0 target 1 lun 0 (pass1) <ATA TOSHIBA DT01ACA2 ABB0> at scbus0 target 2 lun 0 (pass2) <ATA ST2000DM001-1CH1 CC43> at scbus0 target 3 lun 0 (pass3) <ST2000DL003-9VT166 CC3C> at scbus1 target 0 lun 0 (pass4,ada0)
あわてて予備ディスクに交換。
予備ディスクに交換してRAIDの状況とHDDの状況を確認する。
[root@backup1 ~]# camcontrol devlist <ATA TOSHIBA DT01ACA2 ABB0> at scbus0 target 0 lun 0 (pass0) <ATA ST2000DM001-1CH1 CC43> at scbus0 target 1 lun 0 (pass1) <ATA TOSHIBA DT01ACA2 ABB0> at scbus0 target 2 lun 0 (pass2) <ATA ST2000DM001-1CH1 CC43> at scbus0 target 3 lun 0 (pass3) <ST2000DL003-9VT166 CC3C> at scbus1 target 0 lun 0 (pass4,ada0) [root@backup1 ~]# mfiutil show volumes mfi0 Volumes: Id Size Level Stripe State Cache Name mfid0 ( 60G) RAID-5 512k DEGRADED Enabled <VD0> mfid1 ( 5527G) RAID-5 512k DEGRADED Enabled <VD1> [root@backup1 ~]# mfiutil show progress drive 0 Rebuild: 0.44% complete, after 98s finished in 6:10:02 [root@backup1 ~]# mfiutil show drives mfi0 Physical Drives: 0 ( 1863G) REBUILD <TOSHIBA DT01ACA2 ABB0 serial=53H9B0XGS> SATA E1:S0 1 ( 1863G) ONLINE <ST2000DM001-1CH1 CC43 serial=Z1E0ZY3C> SATA E1:S1 2 ( 1863G) ONLINE <TOSHIBA DT01ACA2 ABB0 serial=53H9B1BGS> SATA E1:S2 3 ( 1863G) ONLINE <ST2000DM001-1CH1 CC43 serial=W1E0Z3RJ> SATA E1:S3 Feb 21 03:32:53 backup1 mfi0: 291272 (509340137s/0x0002/info) - Inserted: PD 00(e0xfc/s0) Feb 21 03:32:54 backup1 mfi0: 291273 (509340137s/0x0002/info) - Inserted: PD 00(e0xfc/s0) Info: enclPd=fc, scsiType=0, portMap=00, sasAddr=1221000000000000,0000000000000000 Feb 21 03:32:55 backup1 mfi0: 291274 (509340137s/0x0002/info) - State change on PD 00(e0xfc/s0) from UNCONFIGURED_BAD(1) to UNCONFIGURED_GOOD(0) Feb 21 03:32:55 backup1 mfi0: 291275 (509340137s/0x0002/info) - State change on PD 00(e0xfc/s0) from UNCONFIGURED_GOOD(0) to OFFLINE(10) Feb 21 03:32:55 backup1 mfi0: 291276 (509340138s/0x0002/info) - Rebuild automatically started on PD 00(e0xfc/s0) Feb 21 03:32:55 backup1 mfi0: 291277 (509340138s/0x0002/info) - State change on PD 00(e0xfc/s0) from OFFLINE(10) to REBUILD(14) Feb 21 03:32:55 backup1 mfi0: 291278 (509340138s/0x0020/info) - Patrol Read complete
在庫のHDDが切れたので、Amazonプライムで追加のHDDをとにかく発注する。
作業を時系列にしてみる。
03:19:34 HDD障害 03:21:03 障害認知、障害対応開始、予備HDD確保 03:32:53 暫定復旧、ステータス確認 03:37:53 予備HDD発注完了
すべての行程で、18分で完了。これぞオンサイト!運用はこれぐらいでできたら、とてもすばらしいと思う。いや、やりたくないけど。。。日本酒を飲みながら対処しましたw