WSFC日誌分析基礎篇

    以前博客中老王介紹了下WSFC中的仲裁,主要用於維持羣集持續可用,出現宕機時應該處理的一些思路,在接下來的文章中老王將爲你們介紹下WSFC中的日誌分析,不少時候當出現問題了,或者須要進行性能優化,都須要經過看日誌來進行分析判斷,所以WSFC中掌握日誌的分析更是重中之重,老王但願可以經過幾篇文章把WSFC的日誌分析功能授人以漁,介紹給更多的朋友們。安全


    其實從2012時×××始,羣集事件日誌這方面,老王我的感受已經優化了不少,說的基本上很清楚,對於ITpro來講已經能夠很直觀的從事件日誌裏面發現問題性能優化

   

    首先咱們先來看下系統日誌,默認狀況下,WSFC羣集會將關於羣集狀態的,例如,節點,存儲,網絡,羣集,仲裁狀態信息,凡是出現關鍵,錯誤,警告,資源失敗等一類的日誌,都會顯示在系統日誌中,管理員直接在系統日誌中篩選來自羣集類別的日誌就能夠網絡

wKioL1mFhrGgO27EAAFQpjNHqVw398.jpg

篩選完成後打開就能夠看到羣集相關的日誌,基本上絕大部分狀況,在系統日誌裏面WSFC就會告訴你故障是怎麼回事,是羣集壞了,是存儲脫機了,是網絡分區了,仍是沒辦法仲裁了,等等,所以,第一步能夠先從看系統日誌下手,理解裏面羣集日誌說的內容,一些狀況下能夠直接按照系統日誌中給出的方向去進行修復,最起碼已經給出明確的方向範圍ide

wKiom1mFhsyi3hCRAAK-gxMNlGQ538.jpg

wKioL1mFhszAhiOPAAGnWB7MMnY441.jpg

wKioL1mFhs3xZrVsAAEYqj4adYw699.jpg

wKiom1mFhs7zn6aBAAFvDmiEMDA177.jpg


除了系統日誌,在應用程序日誌裏面也有兩個和羣集有關的關鍵日誌,一些排錯的場景也許也會用到性能


FailoverClustering - Operational學習

FailoverClustering - Manager -Diagnostic優化


wKiom1mFmoTgirXOAACut2sVoRw590.jpg

FailoverClustering - Operational 日誌主要記載在羣集在運行過程當中的資源變化等信息,安全管理器,NetFT羣集網絡通訊拓撲生成,運行情況檢測狀況,羣集應用或者羣集磁盤的狀態變化,上線,離線或轉移等等,都會被詳細的記錄在這個事件日誌中,所以若是想要重現羣集的一些問題,確認資源變化是否生效,均可以查看Operational日誌得知ui

wKioL1mFijTC3zkeAAB2MkdgPAc302.jpg

wKiom1mFijXQLomZAACPWpVaAE0037.jpg

wKioL1mFijXC_gz4AAB_b6tqWyw013.jpg

wKiom1mFijbT4ep7AAFdnPkSMJE289.jpg


FailoverClustering - Manager -Diagnostic,這個日誌會記錄着羣集管理員在打開羣集管理器時每個執行過的動做,作過的修改,都會在這個日誌中記錄,這在一些故障排除場景下會很是有用,能夠幫助管理員們找到多是因爲作了哪些修改致使的問題spa


wKiom1mFjp_QhhaLAAE08tS6O48909.jpg

wKioL1mFjqCCh8NDAAE8vN3pi4w167.jpg

wKiom1mFjqCTuLkaAAE2VEThC9Y421.jpg



其它日誌功能以下設計


FailoverClustering - Diagnostic :羣集診斷日誌,2012R2中level 3詳細級別,能夠完整呈現出羣集運做時後臺發生的步驟,用於高級排查,原理學習。

FailoverClustering - Performance-CSV:針對於CSV的性能分析日誌

FailoverClustering - Client:建立羣集或添加節點時的詳細分析日誌

FailoverClustering - CSVFT -Diagnostic:2012新增,用於幫助管理員分析CSV在各節點掛載讀取狀況,Metadata的讀取寫入,IO重定向等日誌

FailoverClustering - CSVFS -Operational:用於跟蹤CSV掛載狀況,及直接IO狀況

FailoverClustering - Manager -Operational:主要記錄針對於羣集執行的管理操做,例如PS腳本是否正常下發執行,那些節點當前沒法接受管理等管理操做記錄

FailoverClustering - WMIProvider -Admin:用於當羣集使用通用WMI程序或其它調用WMIProvider的羣集程序時進行排錯


除了羣集自己的日誌,2012開始也會有CAU更新單獨的日誌,在這裏能夠看到羣集節點進行CAU時的狀態,以及詳細信息。


wKioL1mFlObDmPy3AAEsM5QY2Ao092.jpg


在老王看來,對於通常的企業管理員維護羣集來說,事件管理器中掌握會看羣集系統日誌,FailoverClustering - Operational,FailoverClustering - Manager -Diagnostic,就已經足夠了,已經能夠重現分析出絕大部分問題,可是對於一些癡迷於技術的愛好者們來說可能還並不知足,他們但願深刻至羣集的最底層,或者一些高級排錯的場景,但願可以完整的看到整個羣集的最詳細執行過程,那麼你就須要去看Diagnostic日誌,在FailoverClusterin - Diagnostic 診斷日誌中會記載着幾乎是最詳細的羣集執行過程,你會看到這個日誌會不斷的增加,後面老王會在進階篇中專門講解這種診斷日誌。


在上文中老王是直接以2012R2爲例,但其實對於羣集日誌來說,從好久之前就已經有了,在Windows Server 2003時,那時候事件管理器還不像如今這麼花花,因此那時候羣集的日誌,都是經過一個log來完成,羣集一邊執行着,那邊日誌就不斷的增加,當出現問題時管理員直接連到C:\Windows\Cluster下的cluster.log進行排錯


在2008時發生了一些變化,羣集日誌一部分改爲了經過事件跟蹤會話的形式進行收集

wKioL1mFkZHSo9xmAAJbd8Teqyo023.jpg

凡是被這種數據收集器採集的日誌,你會發現,在事件管理器中都不能直接看

wKioL1mFkf_y9zszAADe7Alt1AI660.jpg

能夠看到診斷日誌,在2008開始就被分紅了多個一個個的ETL文件,這種文件並不能直接打開

wKiom1mFkaqTqYCqAAEJYwCwzYQ387.jpg

只能經過tracerpt命令轉換爲csv格式進行查看

wKiom1mFknDDr0meAAPSM5EZOWE425.jpg

所以,若是在2008時代,想看詳細的羣集診斷日誌,事件管理器裏面是不能看的,只有經過Cluster log /gen或者Get-Clusterlog命令查看,當執行這條命令以後,它會把全部診斷分析的ETL文件合併,而後去掉無用的元數據,保存成cluster.log文件供你們查看,所以老王認爲2008時代比起2012時代的羣集日誌仍是操做上還要差一些


到了2012時×××始,能夠看到診斷日誌已經從數據收集器中獨立出來,單獨有本身的事件單元,能夠直接在事件管理器中看了

wKiom1mFlGGBmL_vAAL8LW7FMJI877.jpg

wKiom1mFk1-ibpLNAALp1WWRA4c224.jpg

   

 至此主要介紹羣集日誌在事件管理器的查看分析,老王認爲學習羣集日誌分析,能夠先從事件管理器入手,先學會看羣集系統日誌,FailOverClustering - Operational,FailoverClustering - Manager -Diagnostic這三個日誌,而後用到時再看其它的,在這個部分老王對於診斷日誌只是一帶而過,由於打算進階篇詳細講,事實上老王也建議你們先學會看基本的這個三個日誌,最後再去看診斷日誌,由於診斷日誌中涉及到的羣集底層知識較多,若是對羣集並非瞭解很深刻可能看起來會有點吃力,事件管理器如今清晰明瞭,是個不錯的入手方向。


 除了事件管理器,羣集還提供了一些直觀的報告,在C:\Windows\Cluster\Report目錄下,能夠看到有驗證報告,添加節點的報告,建立羣集的報告,羣集仲裁配置報告,等等,這些MHTML的文檔都是羣集已經幫咱們設計好了的,打開以後都會有很友好的界面,不管是管理員看或是給經理看都很直觀

  

 其中集驗證報告咱們能夠把它理解爲一個羣集的私人醫生,當建立羣集的時候,強烈建議運行一次羣集驗證報告,它會幫助咱們從系統配置,網絡,存儲等多個角度來診斷出一份詳細的報告,當前環境是否適合建立羣集,針對於不適合的地方會給出錯誤提示,也會使用內置的最佳實踐來提示那些是應該改進的


 除了羣集建立時應該運行羣集驗證報告,在向羣集變動網絡,存儲環境後也建議運行下羣集驗證,它會幫助咱們分析模擬變動後的環境是否會影響羣集的正常運行


 若是在羣集已經跑了應用的話,運行羣集驗證報告也會幫助咱們去驗證模擬羣集應用,這裏須要注意的一點是,當運行羣集驗證報告的時候,存儲一欄要謹慎勾選,一旦羣集驗證報告勾選了存儲,那麼驗證過程會嘗試離線再上線羣集磁盤,可能會致使應用的宕機,能夠選擇安排在合適的時間作,或者取消勾選存儲便可。


wKioL1mFlnHwvMaiAAEaippd-8c549.jpg

wKioL1mFtp7g7E7_AADGnRSj5pA886.jpgwKiom1mFlybi0qHNAAE5OdWhB9Q894.jpg

報告目錄這裏面的MHTML報告,主要是當羣集發生變化,或者咱們觸發一個報告時,咱們提供一個直觀的報告展現界面,可是當管理員要進行詳細的排錯時,有時仍須要看文件夾中的ValidateStorage日誌,它會比MHTML的信息更加詳細。

wKioL1mFl7PCyQN1AAKXy_uiysQ465.jpg

對於想要學習羣集日誌分析的朋友來講,第二個步驟能夠選擇掌握羣集驗證報告,和目錄下的其它報告,起碼先學會看懂報告,理解羣集驗證報告,會幫助你快速的瞭解,羣集建立時發生的步驟,以及羣集在運行時應該遵照的要求


第三個步驟,即掌握羣集管理器中事件查詢的用法


打開羣集管理器,咱們能夠看到首頁會提示當前最近的羣集事件有2個關鍵,30個錯誤,3個警告,那麼這些事件是在哪裏來的呢?答案其實也是從事件管理器來的,只不過羣集調用了事件管理器,使用本身的GUI作了一個查詢顯示

wKiom1mFm2mhIg8mAAITg8zwvUQ606.jpg

點擊事件的連接,能夠看到跳轉進入了一個羣集事件的界面,這個界面和咱們事件管理器裏面看到的差很少

wKioL1mFnEPjiqlnAAL0uBN8lYs024.jpg


   但實際上,羣集管理器裏面的事件仍是和普通事件管理器中的事件有點區別,設想一下,咱們作了羣集,那麼確定是但願可以站在一個總體的角度,來看羣集的狀態,默認狀況下事件管理器所展現的只是單臺

   所以,羣集管理器中作了優化,咱們在羣集事件中看到的日誌,其實是羣集蒐集了羣集中全部羣集節點,而呈現出來的日誌

   打開羣集事件界面下的查詢能夠看到,當前日誌來源是收集了羣集全部節點中的,羣集相關事件的關鍵,錯誤,警告部分,而且默認是查詢24小時內的 ,這個設計的就很好,幫助管理員在一個羣集事件的界面下就能夠看到全部節點的日誌

wKioL1mFnQXTYlriAAIzrfAzETw826.jpg

除了默認收集全部節點中的系統羣集日誌,咱們也能夠手動選擇,但願讓羣集收集的各節點日誌

wKioL1mFndnR1o0xAACPCtm2ZG8359.jpg

例如,若是咱們是一個Hyper-V集羣,咱們也能夠選擇上Hyper-V的相關日誌,當進行一個虛擬化集羣的排錯時,咱們不只能夠在羣集事件中集中看到羣集相關的日誌,也能夠集中看到Hyper-V的報錯日誌

wKiom1mFndrTjnssAAC21PAEJRk091.jpg

這裏須要注意的一點是,因爲這個查詢是在全部節點作,所以建議,除了羣集自己的日誌外,不要選擇過多其餘的日誌,能夠選擇單獨的一項兩項,例如選擇SQL的,或者Hyper-V的,這裏的關鍵是咱們要在排錯的過程當中,總體的,精確的來判斷一個問題的故障點,若是這裏收集的來源過多就失去了意義


咱們目前是在羣集事件中查看羣集總體的日誌狀況,若是隻是單一的羣集應用程序出現問題,咱們也能夠點擊單個的應用程序,在旁邊選擇 顯示關鍵事件 就能夠看到,關於當前應用的,在全部羣集節點聚合起來的關鍵錯誤信息

wKiom1mFn1niZ2R-AALE1TTd-3Y361.jpg

若是是羣集磁盤,也能夠經過顯示關鍵信息的方式,來獲取針對於羣集磁盤的,在各個節點聚集起來的關鍵錯誤信息

wKioL1mFn-vDNhaIAAFBa-RTASQ314.jpg

所以咱們能夠看到,WSFC內置已經幫助咱們實現了羣集節點事件彙總分析的功能,咱們能夠在總體的羣集事件上面看全部羣集節點的日誌,WSFC也幫我幫助咱們在具體的羣集應用,羣集磁盤上面內置了這項功能,針對於單獨的應用或磁盤進行分析,也能夠經過這種簡單的方式來獲取全部節點上面的日誌。


至此,WSFC日誌分析基礎篇結束,在這一篇中老王主要爲你們介紹了WSFC日誌分析相對來講基礎一點的三個地方,分別是事件管理器,羣集報告目錄,羣集管理器事件,對於羣集日誌分析沒有頭緒的朋友能夠先從這三個地方看起,仔細看懂裏面的內容,學會利用它們,相信對提升您的日誌分析能力會有所幫助

相關文章
相關標籤/搜索