因Window服務器自動更新並重啓致使WebSphere服務中止服務故障一例

最近公司購買了兩臺Windows Server 2008 R2服務器用於提供提供Web服務,A機器安裝了IHS+DM+WAS8.5集羣,B機器安裝了Oracle11gR2用於數據存儲,兩臺機器都可鏈接互聯網。java

服務部署頭天晚上部署,測試沒有任何問題,早上用戶打電話反饋沒法正常訪問站點,遠程登陸後發現IHS+DM服務正常,可是集羣沒有啓動,查看任務管理器發現沒有nodeagent和集羣中server的進程,手動啓動nodeagent後啓動集羣,兩個Server正常啓動,隨後正常提供服務。當時懷疑服務器是否從新啓動致使服務異常,也懷疑是程序的問題,但手頭事情比較多就沒有持續跟進;但是一樣的事情在次日又發生了,早上一塊兒來就發現服務沒法訪問。此次不能無視了。。。收集了相關日誌後,手動啓動nodeagent和集羣並提供服務後就開始進行問題排查。node

一、檢查WebSphere Server日誌服務器

檢查了集羣各幾點Server的SystemOut.log日誌,發如今3點15分忽然爆出以下日誌:網絡

[16-3-22 3:15:16:482 CST] 0000004e Peer          I   ODCF8534I: 已除去鄰居 ip=192.168.1.8 udp=11011 tcp=11012 ID=a0afd7f939ef4c971fe6825780126b1741b2f9ff version=0;cellName=WIN-RU03CB21QGACell01;bridgedCells=[];structuredGateway=false;properties={inOdc=1, epoch=1458522523691, MEMBER_STARTUP_TIME=1458522519269, memberName=WIN-RU03CB21QGACell01\WIN-RU03CB21QGANode01\AppSrv02, MEMBER_VERSION=4},鄰居集如今爲 2 nodes
0  ip=192.168.1.8 udp=11008 tcp=11007 ID=f271d5e15b5f3696eb6b30d9ef41532f9c5a81e8 version=0;cellName=WIN-RU03CB21QGACell01;bridgedCells=[];structuredGateway=true;properties={inOdc=1, epoch=1458522483936, MEMBER_STARTUP_TIME=1458522480920, memberName=WIN-RU03CB21QGACell01\WIN-RU03CB21QGANode01\nodeagent, MEMBER_VERSION=4}
1  ip=192.168.1.8 udp=11005 tcp=11006 ID=63a7efddbd567d67083efb4fc6a7727dd79c4c32 version=0;cellName=WIN-RU03CB21QGACell01;bridgedCells=[];structuredGateway=true;properties={inOdc=1, MEMBER_VERSION=4, epoch=1458503412906, ODC_PUBLISHER_ONLY=false, MEMBER_STARTUP_TIME=1458503408859, memberName=WIN-RU03CB21QGACell01\WIN-RU03CB21QGACellManager01\dmgr}
。

其他幾行可有可無的信息輸出後就一片沉寂了。tcp

二、檢查WebSphere DM日誌工具

檢查DM SystemOut.log日誌發現DM在晚上3點15分左右輸出服務中止和啓動的日誌,但中止和啓動緣由不明。測試

三、檢查WebSphere FFDC日誌spa

經過對dmgr的ffdc目錄中的日誌文件按照日期進行排序,發現3月22日有兩個日誌文件;操作系統

dmgr_exception.log.1458587814531.txt日誌

dmgr_25be7f2a_16.03.22_03.16.54.5782445606813376690951.txt

發現以下輸出:

[16-3-22 3:16:54:578 CST]     FFDC Exception:java.io.IOException SourceId:com.ibm.ws.management.discovery.DiscoveryService.sendQuery ProbeId:189 Reporter:com.ibm.ws.management.discovery.DiscoveryService@48071f19
java.io.IOException: ADMD0004E: 沒法打開 TCP 套接字:WIN-RU03CB21QGA:7272。請檢查遠程進程是否已打開端口。

「沒法打開TCP套接字」是否是網絡的問題,那麼網絡出現什麼問題呢?斷網也不至於讓服務重啓啊?是否是操做系統自己在作什麼操做呢?那就根據時間點查看一下操做系統的日誌吧。

四、檢查Windows事件查看器中的日誌

點擊「開始--》管理工具--》事件查看器」,在Windows日誌節點下點擊「系統」,在右側的事件列表中按照時間點3.15左右進行事件的過濾,最終找到了問題所在;

QQ截圖20160322173459

原來雲服務提供商的這臺操做系統設定在凌晨三點進行系統更新,系統更新後自動進行系統重啓。

IHS+DM在Windows平臺下默認以服務形式啓動,可以跟隨操做系統啓動,而nodeagent不是服務,不能隨操做系統啓動而啓動,這就致使了服務沒法正常啓動的緣由。

相關文章
相關標籤/搜索