@msmです。
おちゃぼさんのこの記事に触発され、新ハードウェアでホットスワップしてみます。
環境は、CentOS 5に、ClassCat CuteEE5を入れたx3250 M2を利用しました。
手探り状態で、適当に書いていますが、お客様環境における実際の障害時には、IBMの保守員、または交換方法を理解した弊社の運用員が作業しますのでご安心ください。
IBM System x3250 M2では、LSI 1064E RAID コントローラーにてハードウェアRAIDを提供しています。
早速、右側ハードディスクを引っこ抜いてみます。
May 17 07:50:29 ClassCat_test kernel: mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00)
May 17 07:50:29 ClassCat_test kernel: mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00)
May 17 07:50:29 ClassCat_test kernel: mptbase: ioc0: LogInfo(0x31170000): Originator={PL}, Code={IO Device Missing Delay Retry}, SubCode(0x0000)
May 17 07:50:29 ClassCat_test kernel: mptbase: ioc0: LogInfo(0x31170000): Originator={PL}, Code={IO Device Missing Delay Retry}, SubCode(0x0000)
May 17 07:50:29 ClassCat_test kernel: mptbase: ioc0: RAID STATUS CHANGE for PhysDisk 0 id=10
May 17 07:50:29 ClassCat_test kernel: mptbase: ioc0: PhysDisk is now missing
May 17 07:50:29 ClassCat_test kernel: mptsas: ioc0: removing sata device, channel 0, id 10, phy 1
May 17 07:50:30 ClassCat_test kernel: mptbase: ioc0: RAID STATUS CHANGE for PhysDisk 0 id=10
May 17 07:50:30 ClassCat_test kernel: mptbase: ioc0: PhysDisk is now missing, out of sync
May 17 07:50:30 ClassCat_test kernel: mptbase: ioc0: RAID STATUS CHANGE for VolumeID 9
May 17 07:50:30 ClassCat_test kernel: mptbase: ioc0: volume is now degraded, enabled
/var/log/messagesにエラーが出ました。同時に機器のインジケータの「!」が点滅しております。
反応があると嬉しいものです。
そのまま差し込んでみます。
May 17 07:51:08 ClassCat_test kernel: mptbase: ioc0: RAID STATUS CHANGE for PhysDisk 0 id=10 May 17 07:51:08 ClassCat_test kernel: mptbase: ioc0: PhysDisk is now online, out of sync May 17 07:51:08 ClassCat_test kernel: mptsas: ioc0: attaching sata device, channel 0, id 10, phy 0 May 17 07:51:08 ClassCat_test kernel: Vendor: ATA Model: WD2502ABYS-23B7A Rev: 3B04 May 17 07:51:08 ClassCat_test kernel: Type: Direct-Access ANSI SCSI revision: 05 May 17 07:51:08 ClassCat_test kernel: scsi 0:0:2:0: Attached scsi generic sg1 type 0 May 17 07:51:08 ClassCat_test kernel: mptbase: ioc0: RAID STATUS CHANGE for VolumeID 9 May 17 07:51:08 ClassCat_test kernel: mptbase: ioc0: volume is now degraded, enabled, resync in progress
自動的に再構築が走りました。
また、「!」が点滅が収まり、HDD前面のインジケータのオレンジランプが点滅し始めました。
250GBの再構築には、それなりの時間がかかりそうなので、短気な@msmはこの空き時間を利用して、進捗情報を調べてみる事にしました。
IBMのダウンロードサイトから、「LSI Basic/Integrated RAID コントローラー用 CFGGEN 構成ユーティリティー (Linux 版) – IBM BladeCenter および System x」というのをダウンロードします。私はコレを使いました。
zipを解凍すると、cfggenというファイルがありますので、実行可能にし、適当な場所に移動します。
# unzip ibm_utl_mptsas_cfggen-2.06.00_linux_32-64.zip # chmod +x cfggen # mv cfggen /usr/sbin/
cfggenコマンドの使い方は・・・
cfggen <controller #> <command> <parameters> …
と書いてあります。
controllerのIDを調べます。
# cfggen LIST LSI Logic IR Configuration Utility 2.06.00 cfggen: couldn't open /dev/mptctl! cfggen: make sure the mptctl driver is loaded!
mptctl のドライバが無いと怒られてしまいましたので、ロードします。
# modprobe mptctl # lsmod | grep mpt mptctl 31301 0 mptsas 37321 5 mptscsih 36801 1 mptsas mptbase 74981 3 mptctl,mptsas,mptscsih scsi_transport_sas 30529 1 mptsas scsi_mod 134605 8 mptctl,sr_mod,sg,libata,mptsas,mptscsih,scsi_transport_sas,sd_mod
気を取り直してもう一度。
# cfggen LIST
LSI Logic IR Configuration Utility 2.06.00
Adapter Vendor Device Segment SubSys SubSys
Ioc# Type ID ID ID Bus Device Func Ven ID Dev ID
----- --------- ------ ------ ------- --- ------ ---- ------ ------
0 SAS1064E 1000h 56h 0000h 01h 00h 00h 1014h 0306h
どうやらcfggenが使えるようになりました。
長くなりましたので、次回でハードウェアRAID再構築の進捗状況を調べます。


