朋友新建的一套osc 4.4環境,安裝配置完成後,執行cluster status命令時,會夯住,以下圖所示:
查看系統日誌,發現以下報錯:node
Dec 2 09:31:10 sol04 genunix: [ID 108990 kern.notice] NOTICE: CMM: Cluster members: sol03 sol04. Dec 2 09:31:10 sol04 genunix: [ID 279084 kern.notice] NOTICE: CMM: node reconfiguration #4 completed. Dec 2 09:31:16 sol04 genunix: [ID 670799 kern.warning] WARNING: CMM: Registering reservation key on quorum device /dev/did/rdsk/d5s2 failed with error 2. Dec 2 09:31:16 sol04 genunix: [ID 868277 kern.warning] WARNING: CMM: Erstwhile online quorum device /dev/did/rdsk/d5s2 (qid 1) is inaccessible now.
從日誌中判斷,跟quorum相關。使用clq命令查看quorum設備信息,以下圖:
由圖中得知,d5的Access Mode爲scsi3。對於access mode官方的解釋(Doc ID 1008224.1)以下圖:
查看d5的路徑,確認其由兩個路徑組成,以下圖:
Solaris Cluster 3.1以前的版本,默認的global_fencing值爲"pathcount",而3.2以後的版本,官方推薦使用SCSI-3。查看默認的global_fencing值,以下圖:
設置global_fencing的值,以下:ide
root@sol04:~# cluster set -p global_fencing=pathcount root@sol04:~# cluster show -t global
最後,從quorum中刪除d5,先設置d5的access mode爲nofencing,再設置爲global,最後再添加到quorum中,以下:unix
root@sol04:~# clq remove d5 root@sol04:~# cldevice set -p default_fencing=nofencing 5 root@sol04:~# cldevice set -p default_fencing=global 5 root@sol04:~# clq add d5 root@sol04:~# clq show
到此,整個故障完美解決。
其餘設備的defaultfencing設置可使用下面的命令檢查:日誌
root@sol04:~# scdidadm -L -o instance -o defaultfencing -o detectedfencing -o fullpath
集羣的fencing protocol可使用下面的命令驗證:code
root@sol04:~# scdidadm -G The cluster is currently configured to use DID path count algorithm to determine fencing protocol for shared devices.