このところ、めっきり秋めいた空気で気持ちの良い天気が続いています。
気持ちよくおにぎりを食べていたら、ついつい6個も食べてしまったおちゃぽです。
FreeBSDは、使えないHDDなど無いと言わんばかりの対応が嬉しいのですが
RAID環境と言う物だけを取り上げると、非常に寂しい思いをしていらっしゃるかと思います。
実際、インターネット上で皆さんが苦戦するほどRAIDの状態監視は難しいのでしょうか?
今回、犠牲になったサーバは、ハードウェアRAIDの、SmartArray P600を使用しています。
P600は、SAS/SATAタイプのHDDを使用可能なRAIDコントローラになり、ドライバーは
cissを使用しています。GENERICカーネルでも認識しますよ。
FreeBSDは6.2-p7、
解説が終わった所で、断腸の思いで、片方のHDD(ドライブの3と4にディスクを挿入しています。)を引き抜きますと
test # tail -f /var/log/messages Sep 6 15:07:59 kernel: ciss0: *** Hot-plug drive removed, Port: 2I Box: 1 Bay: 4 Sep 6 15:07:59 kernel: ciss0: *** Physical drive failure, Port: 2I Box: 1 Bay: 4
思いっきりfailureって出てますね。当然なんですけど。で、小心者なので、あわてて、元に戻しますと・・・・
Sep 6 15:08:13 kernel: ciss0: *** State change, logical drive 0 Sep 6 15:08:13 kernel: ciss0: logical drive 0 (da0) changed status OK->interim recovery, spare status 0x0 Sep 6 15:08:13 kernel: ciss0: *** Hot-plug drive inserted, Port: 2I Box: 1 Bay: 4
無事に、スペア用HDDとして認識されました。そして、そのまま再構築が始まります。
Sep 6 15:08:19 kernel: ciss0: *** State change, logical drive 0 Sep 6 15:08:19 kernel: ciss0: logical drive 0 (da0) changed status interim recovery->ready for recovery, spare status 0x0 Sep 6 15:08:19 kernel: ciss0: *** State change, logical drive 0 Sep 6 15:08:19 kernel: ciss0: logical drive 0 (da0) changed status ready for recovery->recovering, spare status 0x0
思ったよりあっけなく、リビルドがかかったのにはびっくりしました。そして、待つ事約30分。
Sep 6 15:39:13 kernel: ciss0: *** State change, logical drive 0 Sep 6 15:39:13 kernel: ciss0: logical drive 0 (da0) changed status recovering->OK, spare status 0x0
無事にリビルドが完了しました。ぜんぜん苦戦しないですね。何が問題なのかも分かりませんでした。
他にもDISKの状態監視の方法として、
camcontrol inquiry da0 pass0: COMPAQ RAID 1 VOLUME OK Fixed Direct Access SCSI-0 device ↑↑↑↑↑
と言う文字列があれば、大丈夫と言う方法もあるようです。
詳しい情報はこちらを参考にしてください。
データセンターダイレクトでは、サービスの提供が行われておりませんが、当データセンターは
オプションにsyslog管理サービスがあります。特にハウジングのお客様など、DISKの障害検知
から、復旧までの時間を短縮する事が可能になります。さらに、弊社の代替機保管サービスを利
用して頂き、予備のHDDを保管し、HDD交換の手順書を頂ければ24時間の保守契約をされた
場合と比較しても、より早い復旧が可能となります。無論、24時間保守へのコールも承っております。


