ともちゃ日記(Tomo cha) - 元大学生のＯＬ日記-

TOP / Wiki / Diary / Profile / BBS / Mail

わたしの日記は日々の出来事の鬱憤晴らしの毒だし日記がメインです。相当病んでいます。くだを巻いています。許容出来る方のみのアクセスをお願いします。また、この日記へのリンクは原則自由にして頂いても結構ですが、写真への直リンクを張るのはご遠慮下さい。内容に関しては、一切保証致しません。

カテゴリ一覧 Network, Internet, IPv6, DC, NTT, Comp, Linux, Debian, FreeBSD, Windows, Server, Security, IRC, 大学, Neta, spam, 食, 生活, 遊び, Drive, TV, 仕事,

過去日記:

2016年02月21日(日) [晴れ]

＊ [Server] また、RAID壊れた

最近よくHDDが死ぬ。本当によく死ぬ。
幸いにしても、このサーバーで同一ロットでくまれたRAID環境はほとんどノートラブルで、ほぼ3年～4年目にして、ぽろぽろとディスクが死ぬ始めた。
今回で3本目。実は今年に入ってから2本目だ。
以前購入して使っていたIBMのHDDが半年で壊れて、リテール品だったので保証ということで、時期を大幅にずらして保証が切れる直前に交換。~そしたら、買収の後だったので、TOSHIBAのHDDが届いた。2013年製。
さらに使う予定も無く、予備ディスクとして回していたのだが、今回のHDDが壊れたので、前回及び今回でそのHDDを使用した。在庫化してから、3年近く予備ディスクとしてとられていた計算になる。そして、このシステムを作る前後に予備ディスクとして確保した物でもある。これで、在庫がつきてしまった。

にしても、今回はとてもすばらしい対応が出来たので記録。

Feb 21 03:19:34 backup1 pass0 at mfi0 bus 0 scbus0 target 0 lun 0
Feb 21 03:19:34 backup1 pass0: <ATA ST2000DL003-9VT1 CC3C> s/n             6YD1QGH1 detached
Feb 21 03:19:34 backup1 (pass0:mfi0:0:0:0): Periph destroyed
Feb 21 03:19:34 backup1 mfi0: 291263 (509339337s/0x0002/info) - Removed: PD 00(e0xfc/s0) Info: enclPd=fc, scsiType=0, portMap=00, sasAddr=1221000000000000,0000000000000000
Feb 21 03:19:34 backup1 mfi0: 291264 (509339337s/0x0002/info) - State change on PD 00(e0xfc/s0) from ONLINE(18) to FAILED(11)
Feb 21 03:19:34 backup1 mfi0: 291265 (509339337s/0x0001/info) - State change on VD 00/0 from OPTIMAL(3) to DEGRADED(2)
Feb 21 03:19:34 backup1 mfi0: 291266 (509339337s/0x0001/CRIT) - VD 00/0 is now DEGRADED
Feb 21 03:19:34 backup1 mfi0: 291267 (509339337s/0x0001/info) - State change on VD 01/1 from OPTIMAL(3) to DEGRADED(2)
Feb 21 03:19:34 backup1 mfi0: 291268 (509339337s/0x0001/CRIT) - VD 01/1 is now DEGRADED
Feb 21 03:19:34 backup1 mfi0: 291269 (509339337s/0x0002/info) - State change on PD 00(e0xfc/s0) from FAILED(11) to UNCONFIGURED_BAD(1)
Feb 21 03:21:03 backup1 su: tomo to root on /dev/pts/1

ディスクが壊れてアラートがあがり、2分以内にログインして状況確認。 pass0がいない。

[root@backup1 ~]# camcontrol devlist
<ATA ST2000DM001-1CH1 CC43>        at scbus0 target 1 lun 0 (pass1)
<ATA TOSHIBA DT01ACA2 ABB0>        at scbus0 target 2 lun 0 (pass2)
<ATA ST2000DM001-1CH1 CC43>        at scbus0 target 3 lun 0 (pass3)
<ST2000DL003-9VT166 CC3C>          at scbus1 target 0 lun 0 (pass4,ada0)

あわてて予備ディスクに交換。

予備ディスクに交換してRAIDの状況とHDDの状況を確認する。

[root@backup1 ~]# camcontrol devlist
<ATA TOSHIBA DT01ACA2 ABB0>        at scbus0 target 0 lun 0 (pass0)
<ATA ST2000DM001-1CH1 CC43>        at scbus0 target 1 lun 0 (pass1)
<ATA TOSHIBA DT01ACA2 ABB0>        at scbus0 target 2 lun 0 (pass2)
<ATA ST2000DM001-1CH1 CC43>        at scbus0 target 3 lun 0 (pass3)
<ST2000DL003-9VT166 CC3C>          at scbus1 target 0 lun 0 (pass4,ada0)

[root@backup1 ~]# mfiutil show volumes
mfi0 Volumes:
Id Size Level Stripe State Cache Name
mfid0 ( 60G) RAID-5 512k DEGRADED Enabled <VD0>
mfid1 ( 5527G) RAID-5 512k DEGRADED Enabled <VD1>
[root@backup1 ~]# mfiutil show progress

drive 0 Rebuild: 0.44% complete, after 98s finished in 6:10:02

[root@backup1 ~]# mfiutil show drives
mfi0 Physical Drives:
 0 ( 1863G) REBUILD <TOSHIBA DT01ACA2 ABB0 serial=53H9B0XGS> SATA E1:S0
 1 ( 1863G) ONLINE  <ST2000DM001-1CH1 CC43 serial=Z1E0ZY3C> SATA E1:S1
 2 ( 1863G) ONLINE  <TOSHIBA DT01ACA2 ABB0 serial=53H9B1BGS> SATA E1:S2
 3 ( 1863G) ONLINE  <ST2000DM001-1CH1 CC43 serial=W1E0Z3RJ> SATA E1:S3

Feb 21 03:32:53 backup1 mfi0: 291272 (509340137s/0x0002/info) - Inserted: PD 00(e0xfc/s0)
Feb 21 03:32:54 backup1 mfi0: 291273 (509340137s/0x0002/info) - Inserted: PD 00(e0xfc/s0) Info: enclPd=fc, scsiType=0, portMap=00, sasAddr=1221000000000000,0000000000000000
Feb 21 03:32:55 backup1 mfi0: 291274 (509340137s/0x0002/info) - State change on PD 00(e0xfc/s0) from UNCONFIGURED_BAD(1) to UNCONFIGURED_GOOD(0)
Feb 21 03:32:55 backup1 mfi0: 291275 (509340137s/0x0002/info) - State change on PD 00(e0xfc/s0) from UNCONFIGURED_GOOD(0) to OFFLINE(10)
Feb 21 03:32:55 backup1 mfi0: 291276 (509340138s/0x0002/info) - Rebuild automatically started on PD 00(e0xfc/s0)
Feb 21 03:32:55 backup1 mfi0: 291277 (509340138s/0x0002/info) - State change on PD 00(e0xfc/s0) from OFFLINE(10) to REBUILD(14)
Feb 21 03:32:55 backup1 mfi0: 291278 (509340138s/0x0020/info) - Patrol Read complete

在庫のHDDが切れたので、Amazonプライムで追加のHDDをとにかく発注する。

作業を時系列にしてみる。

03:19:34 HDD障害
03:21:03 障害認知、障害対応開始、予備HDD確保
03:32:53 暫定復旧、ステータス確認
03:37:53 予備HDD発注完了

すべての行程で、18分で完了。これぞオンサイト！運用はこれぐらいでできたら、とてもすばらしいと思う。いや、やりたくないけど。。。日本酒を飲みながら対処しましたｗ

[ コメントを読む(0) | コメントする ]

Diary for 1 day(s)