帰り、知人が新しいコペンが納車されたということで、助手席に(笑)
下のトルクがすんごいってことで、軽にのってるという感じが無く結構快適。
15kmほどしか走行していない状態からの助手席だったのだが、ブレーキの利きが悪くて恐い。これは、まだ、まっさらのブレーキだからだろう。てことで、慣らしに付き合うよ!ってことで、ちょこっとドライブ。くくく。
んで、道中三鷹にある餃子。一圓へ駆け込み。
餃子定食S(日替わり一品付き)
餃子はやはり大きい!
うん、おいしかったー。これで、600円ちょっとだったかな。
ちょっとお出かけしたら、鹿に遭遇。まあ、鹿との遭遇は決して珍しいわけではないんだけど、おしりがぷりっぷりで可愛かったので幸せな遭遇だったかもしれない。親子だね!
ちょうどスーパーでホットスナックを見つけたので、衝動買い。2種類の新発売っぽい(?)
てことで、パッケージ。
裏面
辛沢 しげき って、、、、ベタすぎ。
てことで、いただいてみると、普通。えっと、コイケヤの
カラムーチョのパクリですか?というぐらいそっくりだった。厚切りは、カルビーらしさの厚切りではあったけど、普通の方は、まんま、コイケヤ カラムーチョではないか。とおもうぐらいそっくり。
6月29日の朝。
CTF for Girlsへいこうとしていた日。朝から、大量のアラートが上がってなんだこりゃ、とおもい原因を調べていたところ、RAID1で構成しているディスクが2本ほぼ同時期に死んでいたことが判明。
どのサーバかというと、先日
5月9日に書いた、NEC Express 5800/R120b-1 の構成につっこんだ、
TOSHIBA MQ01ABD100H 1TB (5400rpm, 8GB SSD-SLC)の構成。まずは、RAIDの状態を確認すべく、チェックをしてみると次の通り...
VMware の環境に、lsi から提供している、MegaCLI をインストールしているので、コマンドをたたいて状況を取得してみます。
# /opt/lsi/MegaCLI/MegaCli -LDinfo -Lall -aALL
Virtual Drive: 1 (Target Id: 1)
Name :
RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0
Size : 931.0 GB
Sector Size : 512
Mirror Data : 931.0 GB
State : Offline
Strip Size : 64 KB
Number Of Drives : 2
Span Depth : 1
Default Cache Policy: WriteBack, ReadAhead, Direct, Write Cache OK if Bad BBU
Current Cache Policy: WriteThrough, ReadAheadNone, Direct, Write Cache OK if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy : Enabled
Preserved Cache Data: Yes
Encryption Type : None
Bad Blocks Exist: No
Is VD Cached: No
# /opt/lsi/MegaCLI/MegaCli -PDList -aALL
Enclosure Device ID: 252
Slot Number: 4
Enclosure position: N/A
Device Id: 4
WWN:
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 0 KB [0x0 Sectors]
Non Coerced Size: 0 KB [0x0 Sectors]
Coerced Size: 0 KB [0x0 Sectors]
Sector Size: 0
Firmware state: Unconfigured(bad)
Device Firmware Level: 1M
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221104000000
Connected Port Number: 5(path0)
Inquiry Data: ATA TOSHIBA MQ01ABD11M 931TC4YVT
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: Unknown
Link Speed: Unknown
Media Type: Hard Disk Device
Drive: Not Supported
Drive Temperature : N/A
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Port-0 :
Port status: Active
Port's Linkspeed: Unknown
Drive has flagged a S.M.A.R.T alert : No
Enclosure Device ID: 252
Slot Number: 5
Enclosure position: N/A
Device Id: 5
WWN:
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 0 KB [0x0 Sectors]
Non Coerced Size: 0 KB [0x0 Sectors]
Coerced Size: 0 KB [0x0 Sectors]
Sector Size: 0
Firmware state: Unconfigured(bad)
Device Firmware Level: 1M
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221105000000
Connected Port Number: 4(path0)
Inquiry Data: ATA TOSHIBA MQ01ABD11M 931TC4YUT
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: Unknown
Link Speed: Unknown
Media Type: Hard Disk Device
Drive: Not Supported
Drive Temperature : N/A
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Port-0 :
Port status: Active
Port's Linkspeed: Unknown
Drive has flagged a S.M.A.R.T alert : No
様子を見ると、エンクロージャーの4本目と5本目が死んでいるのが判り、それにより、論理ボリュームがOffilineになっています。ここは、vmwareの健全ステータスから確認出来るのと同じですね。
ということで、ダメになっているディスクをオフラインにしようとしてもダメ。受け付けない。
/opt/lsi/MegaCLI/MegaCli -PDOffline -PhysDrv [252:5] -a3
User specified controller is not present.
Failed to get CpController object.
Exit Code: 0x01
ボリュームからディスクを切り離そうとしてもダメ。
# /opt/lsi/MegaCLI/MegaCli -PDOffline -PhysDrv [252:5] -a3
User specified controller is not present.
Failed to get CpController object.
Exit Code: 0x01
どうしようもなくて、お手上げになってしまったので、別の物理ドライブ、論理ドライブ(RAID1+0)のボリューム上のゲストマシンをサスペンドして、再起動して、MegaRAIDのBIOSからどのように見えるか確認してみたら次のような感じ。因みに、この時点で、六本木、GREEの中で作業。
完全に認識していない。後に、この状態で、MegaCli をつかって情報を取得しようとしてもなにもとれませんでした。一応、ディスクのハードウェア情報は見れましたが…。というわけで、そんなボリュームは無いといわれ、仕方なく諦めて、別の物理ドライブ、論理ドライブで動いているゲストを復活させました。今回死亡したディスク上にいたVMは、生活用のLinuxの /home と、リプレースのため、2月より構築を始めていた、tomocha.net のサーバです。tomocha.net は構築、検証、並行運用の為、データのバックアップは一切有りません。とはいっても、システムはまだ移行していないので、失ったデータは有りませんが、労力は全て失いました。とはいえ、構築の段階で構築手順書みたいな物は作っていたので、改めてその手順書に基づき再構築を行えば良いのですが…。
ということで、どうしようもないので、問題の発生した2本のディスクを抜いて貰い、宅急便で送ってもらいました。因みに、イベントを追いかけたとき、最初に1本目がダメになったのは、6/28 夜で、2本目が逝ったのは、6/29 朝の6時頃。時間差にして8時間ほどです。そりゃ、どうしようもないわ…。
んで、東京へ送ってもらうのと同時に、諦めて、RAID6(SAS 300GB * 6)の鉄板の構成にすることに…。んで、ディスクの発注を行ったら、佐川急便で送ってこられ、受け取りに逝くことに。。。
まずは、受け取りに逝くためには、車で出かける必要があり営業所へ。えっと、往復30km有るんですが…。あの対応の悪い佐川なので非常に参ります。
電話でねぇし…。カスだ。営業所に着くと、連絡ってくれました? ときかれて、連絡しようとして何度電話しても出なかったのお前らだろ…だったら、繋がる番号を教えろといったら、教えれませんとか。クソが。
無事に受け取れたので、帰りのナビ。
無事受け取り、届いた交換用の純正SASディスクはこんな感じで合計8本。
問題のあったSATA SSHDのディスクはこんな感じ。
取りあえず、データのサルベージは置いておいて、ディスクに問題がないか、一旦データを書いて、チェック。
4本ずつ同時にチェックをしていきます。
さて、問題の起きたディスクのサルベージでもしましょうか…。
赤色の左下のケーブルは、MegaRAIDのHBA、青色のケーブルは、LSI LogicのRAID0,1,10,1E対応の普通のHBAです。後者の板は設定しなければJBOD用でつかえ、且つ、SASディスクも使えることから非常にデータサルベージなどには重宝します。
問題の出たディスクのS.M.A.R.Tを見てみます。
# smartctl -a /dev/sdb
smartctl 5.40 2010-07-12 r3124 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Device Model: TOSHIBA MQ01ABD100H
Serial Number: XXXXXX
Firmware Version: AUF01M
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Fri Jul 4 22:21:51 2014 JST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0
2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0
3 Spin_Up_Time 0x0027 100 100 001 Pre-fail Always - 2572
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 12
5 Reallocated_Sector_Ct 0x0033 100 100 050 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 100 100 050 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1195
10 Spin_Retry_Count 0x0033 100 100 030 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 11
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 1
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 5664
194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 30 (Lifetime Min/Max 15/33)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Old_age Always - 0
220 Disk_Shift 0x0002 100 100 000 Old_age Always - 0
222 Loaded_Hours 0x0032 100 100 000 Old_age Always - 64
223 Load_Retry_Count 0x0032 100 100 000 Old_age Always - 0
224 Load_Friction 0x0022 100 100 000 Old_age Always - 0
226 Load-in_Time 0x0026 100 100 000 Old_age Always - 263
240 Head_Flying_Hours 0x0001 100 100 001 Pre-fail Offline - 0
SMART Error Log Version: 1
ATA Error Count: 16 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 16 occurred at disk power-on lifetime: 1194 hours (49 days + 18 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
50 50 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff ff ff ff ff ff ff 0c 00:00:37.134 [VENDOR SPECIFIC]
aa aa aa aa aa aa aa ff 00:00:36.479 [RESERVED]
ec 00 00 00 00 00 a0 00 00:00:31.472 IDENTIFY DEVICE
ff ff ff ff ff ff ff 0c 00:00:31.427 [VENDOR SPECIFIC]
aa aa aa aa aa aa aa ff 00:00:30.686 [RESERVED]
因みに中身がサルベージ出来るか、確認してみたところ次のような感じで全くディスクにアクセスが出来ません。
# dd if=/dev/sdb conv-sync,noerror bs=512k
dd: reading `/dev/sdb': Input/output error
0+0 records in
0+0 records out
0 bytes (0 B) copied, 0.33083 s, 0.0 kB/s
dd: reading `/dev/sdb': Input/output error
0+1 records in
1+0 records out
524288 bytes (524 kB) copied, 0.577474 s, 908 kB/s
dd: reading `/dev/sdb': Input/output error
0+2 records in
2+0 records out
1048576 bytes (1.0 MB) copied, 0.820808 s, 1.3 MB/s
dd: reading `/dev/sdb': Input/output error
0+3 records in
3+0 records out
1572864 bytes (1.6 MB) copied, 2.26415 s, 695 kB/s
0+4 records in
3+0 records out
^C1572864 bytes (1.6 MB) copied, 3.00568 s, 523 kB/s
中身を拝むことも出来ないので、どうしようもなく。ハードウェア的に読み書きが禁止されている状態ですね。代わりに、同型番の正常なHDDを持ってきて、コントローラを交換してみましたが、結果同じです。S.M.A.R.T の統計データはコントローラ毎にもっているようですが、ディスクのエラー状態はディスク上に記録されているようで、S.M.A.R.T でみた、エラーの内容はコントローラを置きかえても同じデータが参照出来ました。因みに、読み取りは同じく出来ませんでした。
更に調べていると、ディスクの書き込みを禁止しているのを解除出来るかなと思い、HDAT2を試みてみましたが、結局ダメ。こんな感じ。
正常なディスク。型番は違うけど…。
DCO frozen になってる…。
DCO area が disable, DCO frozen になっており、何も出来ず。
正常な同型番のHDD。
DCOサイズが、1TBになっている。
この辺のロックをとけたらなんとかなりそうなんだけど、やり方判らず。断念orz