RAID6のボリュームの内1本のディスク(SAS 300GB)が死んでいたので交換しました。
2ヶ月前に死んでいたのですが時間が取れずに、やっとこさ、新しいディスクとの交換です。
本当はよろしくないけれども、HotSpareがあったり、RAID6だと少し安心ですね。
今回健全性ステータスで異常になっていてすぐにわかりますし、物理でもオレンジLED(障害発生時)もインジケーターでわかるラックマウントサーバを利用していることから障害は早期にわかっていました。また、ホスト側にも、megacliなるものをインストールしているので色々と情報がわかります。
まずは、LogicalVolumeの情報を見てみましょう。下記のstateから、Degradedしているのがわかります。
/opt/lsi/MegaCLI # /opt/lsi/MegaCLI/MegaCli -LDinfo -Lall -aALL Adapter 0 -- Virtual Drive Information: Virtual Drive: 0 (Target Id: 0) Name : RAID Level : Primary-6, Secondary-0, RAID Level Qualifier-3 Size : 1.088 TB Sector Size : 512 Parity Size : 557.75 GB State : Partially Degraded Strip Size : 64 KB Number Of Drives : 6 Span Depth : 1 Default Cache Policy: WriteBack, ReadAhead, Direct, Write Cache OK if Bad BBU Current Cache Policy: WriteBack, ReadAhead, Direct, Write Cache OK if Bad BBU Default Access Policy: Read/Write Current Access Policy: Read/Write Disk Cache Policy : Enabled Encryption Type : None Bad Blocks Exist: No Is VD Cached: No
ということで、リビルドするべくディスクの交換を。
その前に、いつ問題が発生したか確認します。
# /opt/lsi/MegaCLI/MegaCli -adpeventlog -getevents -f lsi-events.20150502_01lo --- seqNum: 0x000021a7 Time: Sun Feb 22 23:24:26 2015 Code: 0x0000010b Class: 1 Locale: 0x02 Event Description: Command timeout on PD 04(e0xfc/s4) Path 5000c5003c0ba199, CDB: 28 00 18 54 43 28 00 00 40 00 Event Data: =========== Device ID: 4 Enclosure Index: 252 Slot Number: 4 CDB Length: 10 CDB Data: 0028 0000 0018 0054 0043 0028 0000 0000 0040 0000 0000 0000 0000 0000 0000 0000 Sense Length: 0 Sense Data: 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 seqNum: 0x000021a8 Time: Sun Feb 22 23:24:26 2015
上記結果から、2/22ですね。
てことで、HDDを交換したらイベントに記録されました。
seqNum: 0x00002579 Time: Sat May 2 07:02:23 2015 Code: 0x00000072 Class: 0 Locale: 0x02 Event Description: State change on PD 04(e0xfc/s4) from UNCONFIGURED_BAD(1) to UNCONFIGURED_GOOD(0) Event Data: =========== Device ID: 4 Enclosure Index: 252 Slot Number: 4 Previous state: 1 New state: 0
交換が完了し、リビルドが始まると次のようなメッセージ。
seqNum: 0x0000257a Time: Sat May 2 07:02:23 2015 Code: 0x00000072 Class: 0 Locale: 0x02 Event Description: State change on PD 04(e0xfc/s4) from UNCONFIGURED_GOOD(0) to OFFLINE(10) Event Data: =========== Device ID: 4 Enclosure Index: 252 Slot Number: 4 Previous state: 0 New state: 16 seqNum: 0x0000257c Time: Sat May 2 07:02:23 2015 Code: 0x00000072 Class: 0 Locale: 0x02 Event Description: State change on PD 04(e0xfc/s4) from OFFLINE(10) to REBUILD(14) Event Data: =========== Device ID: 4 Enclosure Index: 252 Slot Number: 4 Previous state: 16 New state: 20
リビルドが完了したら次のようなログ。
seqNum: 0x000025e1 Time: Sat May 2 08:07:35 2015 Code: 0x00000063 Class: 0 Locale: 0x02 Event Description: Rebuild complete on VD 00/0 Event Data: =========== Target Id: 0 seqNum: 0x000025e2 Time: Sat May 2 08:07:36 2015 Code: 0x00000064 Class: 0 Locale: 0x02 Event Description: Rebuild complete on PD 04(e0xfc/s4) Event Data: =========== Device ID: 4 Enclosure Index: 252 Slot Number: 4 seqNum: 0x000025e3 Time: Sat May 2 08:07:38 2015 Code: 0x00000072 Class: 0 Locale: 0x02 Event Description: State change on PD 04(e0xfc/s4) from REBUILD(14) to ONLINE(18) Event Data: ===========
リビルドはおおよそ1時間ほどで完了したようでした。
ちなみに、ディスクを交換した直後のステータスは次の通りです。
# /opt/lsi/MegaCLI/MegaCli -PDList -a0 Enclosure Device ID: 252 Slot Number: 4 Drive's position: DiskGroup: 0, Span: 0, Arm: 4 Enclosure position: N/A Device Id: 4 WWN: Sequence Number: 11 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 PD Type: SAS Raw Size: 279.396 GB [0x22ecb25c Sectors] Non Coerced Size: 278.896 GB [0x22dcb25c Sectors] Coerced Size: 278.875 GB [0x22dc0000 Sectors] Sector Size: 0 Firmware state: Rebuild Device Firmware Level: 010A Shield Counter: 0 Successful diagnostics completion on : N/A SAS Address(0): 0x50000393c852db9a SAS Address(1): 0x0 Connected Port Number: 5(path0) Inquiry Data: TOSHIBA MBF2600RC XXXXXXXXXXXXXXXX FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s Media Type: Hard Disk Device Drive: Not Certified Drive Temperature :33C (91.40 F) PI Eligibility: No Drive is formatted for PI information: No PI: No PI Port-0 : Port status: Active Port's Linkspeed: 6.0Gb/s Port-1 : Port status: Active Port's Linkspeed: Unknown Drive has flagged a S.M.A.R.T alert : No
リビルド中というのがわかりますね。しばらくしてリビルドが完了すると、VMwareの健全ステータスがすべてグリーンになります。