環境描述數據庫
某公司有一套系統,2臺Windows2003系統,採用自帶的羣集管理器功能實現雙機熱備功能,正常狀況下,服務器10.1.1.1承載中間件應用服務,服務器10.1.1.2承載數據庫服務,僅當其中一臺服務器故障時纔會把資源切換至另外一臺。安全
系統名稱 | 系統版本 | IP地址 | 備註 |
S-EIP-APP | Windows2003ENTSP2 | 10.1.1.1 | 採用Windows2003自帶的羣集管理器實現雙機熱備功能 |
S-EIP-DATA | Windows2003ENTSP2 |
10.1.1.2 |
故障表現服務器
某天晚上收到短信告警,系統異常,沒法訪問。登陸系統10.1.1.1查看羣集管理器狀態,發現服務器10.1.1.2處於脫離羣集狀態。
oracle
處理和分析過程ide
1)遠程登陸系統10.1.1.1,打開羣集管理器,發現「S-EIP-DATA」數據庫服務器節點故障,顯示「紅色叉」,活動資源中的「EAIEIP」、「Oracle Services for MSCS」、「OracleOraDb10g_home1TNSListenerFsloracle-vip」狀態處於「失敗」,羣集管理器嘗試把故障自動轉移至「S-EIP-APP」節點上,但故障依舊。spa
2)把10.1.1.2服務器重啓系統嘗試解決,問題依舊。3d
3)登陸到10.1.1.2服務器,查看事件日誌,發現告警信息和錯誤信息:「安全系統檢測到一個對服務器DNS/s-xx1.hq.cxxp.xxx的身份驗證錯誤,來自身份驗證協議kerbers的失敗代碼爲登陸無效,可能緣由爲無效的用戶名或驗證消息」,如圖:日誌
4)從上圖日誌看出,均出現相似「未知的用戶名和密碼錯誤」錯誤。因爲Windows2003羣集管理器採用AD域進行集中管理,諮詢AD域管理員得知,以前有更改過AD域的管理員密碼。中間件
5)此時排查重點爲,如何在門戶的羣集管理器中修改AD域最新的密碼。通過查閱官方KB和網上資料,嘗試修改羣集管理器中的AD域的密碼:blog
分別登陸10.1.1.1和10.1.1.2,修改「服務」中的「cluster service」--登陸--修改密碼,如圖:
6)修改「cluster service「服務中的密碼後,問題依舊,查看羣集管理器中的」S-EIP-DATA「中的」Oracle Services for MSCS「仍爲失敗狀態,查看日誌得知,還是用戶密碼問題,如圖:
7)解決辦法:分別修改10.1.1.1和10.1.1.2中的」服務「中的」oracleMSCSServices「登陸密碼,如圖:
8)修改完成後,羣集管理器」S-EIP-DATA「活動資源中的」EAIEIP「資源仍處於失敗狀態,如圖:
9)從上圖報錯能夠看出,oracle fail safe故障轉移羣集出現錯誤用戶密碼,按照上面的經驗,應該爲oracle fail safe一樣採用的是AD域的管理員密碼,嘗試修改密碼:
登陸10.1.1.2--開始--程序--「oracle-ofs34_home1」--"oracle services for MSCS Security Setup",修改新的AD域管理員密碼。
10)把全部與AD域管理員賬號相關的密碼更改爲與AD域一致後,問題解決,羣集管理器功能正常,業務恢復正常。
故障緣由
因爲系統在前期規劃時,直接採用了AD域域管理員的用戶密碼進行管理,而因爲AD域服務器的域管理員密碼修改,但在該系統沒有作相應的更改,從而致使了本次故障的發生。