WSFC 狀態操做指南

時間 2019-11-11

標籤 wsfc 狀態指南简体版

原文原文鏈接

在WSFC中，你們可能會看到各類操做狀態，例如，暫停節點，中止節點服務，逐出節點，恢復節點，關閉羣集，銷燬羣集，關閉鏈接，這些操做究竟是什麼意思，分別應該用於什麼場景下，今天咱們就來一探究竟，嘀，老王發車啦！node

首先咱們先從節點操做講起網絡

以WSFC 2012R2爲例，當咱們在故障轉移管理器，節點界面下，點擊任意一個節點，右鍵能夠看到如下操做ide

暫停性能

恢復測試

遠程桌面
spa

信息詳細信息操作系統

顯示關鍵事件命令行

首先來看暫停，自2012開始，暫停不只僅只是宣告節點爲維護狀態，而是能夠根據放置策略，自動把被暫停節點上的負載移至其它節點，此操做主要適用於節點維護場景，例如，節點OS不穩定須要進行排錯，爲了不影響上面的羣集應用，先把應用飄走，再進行排錯，或者須要關機加硬件配置，也能夠先將節點置爲暫停，應用移走，關機加配置，加好以後再開機解除暫停狀態，依次操做各節點3d

總結來講，暫停操做主要用於計劃內維護場景，便是說，咱們知道將要發生維護操做，節點將要不可用，那麼我經過暫停操做，就能夠以最小停機時間的方式把資源遷移走，再執行維護blog

默認狀況下2012時×××始，暫停模式有兩個選擇，一爲排出角色，二爲不排出角色，排出角色爲2012新功能，即按照放置策略將節點上面應用放置到合適節點，不排出角色爲2008舊選項，即只宣告節點爲暫停，不接受資源遷移到本節點，上面資源不會被移走

排出角色，在2012時×××始，默認狀況下暫停節點針對於虛擬機執行實時遷移操做，羣集角色執行在線移動操做，上篇文章老王曾經講過，羣集維護，暫停模式能夠和優先級相整合，例如，節點暫停維護，高和中優先級虛擬機得到實時遷移，低優先級虛擬機得到實時遷移，在資源不足的場景下，經過此配置，能夠始終確保更主要的虛擬機得到最高的可用性和遷移性能，參考老王博客 WSFC 維護模式操做粒度控制

說完暫停咱們再來看下恢復，恢復同暫停正好相對應，當咱們置爲暫停，維護完成後，勢必須要節點從新正常提供服務，在2008時代，恢復僅意味着解除節點的暫停狀態，讓節點能夠接受資源被遷移過來，2012以後此舊操做顯示爲不故障回覆角色。2012時×××始，恢復操做新增故障回覆角色，恢復和暫停相互粘合，當咱們把節點置爲暫停後，資源會被遷移至其它節點，當節點完成後，咱們能夠選擇故障回覆角色，讓被遷移走的資源回到原來的節點正常運做，此暫停故障回覆，也參考放置策略，會考慮首選全部者，反相關性，可能全部者等策略，若是節點當前正在首選全部者則不會回覆，若是節點上面已有反相關性資源則不會回覆，若是維護後原節點從資源的可能全部者剔除，則不會回覆。

在一些場景下，開發人員或業務人員可能會對羣集角色或虛擬機有所要求，例如某個資源只能在某個節點上面運行，對於一些重要的資源，固然仍是穩定爲好，能在原來的節點運做就繼續回到原來節點運做，此場景下適用恢復角色功能，2012時×××始，你們做爲羣集管理員，只要有這種意識就好，計劃內維護，就點一下暫停節點，遷移角色，維護完成後點一下恢復節點，遷移回羣集角色

遠程桌面其實也是個有用的功能，例如羣集節點不少，可能16個節點，32個節點，羣集管理員天天會打開羣集管理器進行配置，巡檢，若是發現節點有問題，能夠直接在故障轉移管理器中對節點發起一個遠程桌面，只要節點遠程端口正常工做就能夠直接遠程過去

信息詳細信息，主要顯示對於資源或節點執行操做失敗，失敗的緣由是什麼

顯示關鍵事件，主要用於聚合當前節點或資源的關鍵事件，2008開始，羣集對於大部分資源都會置備這種資源特定的事件管理器篩選，咱們點擊某個節點，或某個資源，顯示關鍵事件，顯示的就是僅當前節點或當前資源的事件。

針對於節點操做除了上述以外，還有一個更多操做，裏面分別是啓動羣集服務，中止羣集服務，逐出節點

啓動羣集服務，一般用於以前因爲某些操做，例如要進行排錯，手動中止了羣集服務，排錯完成後能夠經過GUI啓動羣集服務，或經過命令行

net start clussvc啓動

中止羣集服務，也是用於一些特殊場景，正常狀況下咱們不須要用到它，例如羣集應用若是轉移到某個節點沒法正常工做，咱們能夠經過取消可用全部者，或在這裏停掉該節點的羣集服務，在WSFC 2016以前，羣集服務的中止，即意味着故障轉移，若是一個節點的羣集服務中止，下次運行情況檢測將報告該節點不可用，上面的全部應用或虛擬機將執行計劃外故障轉移操做。WSFC 2016開始，羣集推出VM防瞬斷功能，能夠防止瞬斷狀況致使虛擬機快速遷移，例如若是是一個網絡瞬斷，或羣集服務崩潰中止，只要在必定時間內能夠恢復，則不會觸發快速遷移操做，由於快速遷移會爲虛擬機帶來停機時間，若是您不須要VM瞬斷功能

關閉便可（Get-Cluster）.ResiliencyDefaultPeriod =0

逐出節點，則意味着將節點完全從羣集的可用節點中剔除，已逐出節點永遠不建議再從新加入羣集，逐出節點一般用於如下場景

重命名羣集節點

用不一樣硬件替換節點

節點從新安裝操做系統

永久在羣集中刪除節點

一般來講，逐出節點是一個簡單粗暴的解決問題方式，但它毫不是一個排錯的途徑，若是你能確認，就是由於這臺節點的OS不穩定有問題，那麼您能夠把它從羣集中逐出，新加一個節點進來，或者逐出以後重作系統，再以一個新的節點名稱加入進來。

這種方式雖好，但有時並不能真正的解決問題，有時候咱們覺得是一個節點的問題，但實際上是羣集資源的問題，可能咱們即使逐出了節點，再新加節點仍是會遇到此問題，所以建議不輕易作逐出節點，除非咱們斷定問題緣由，最後執行逐出操做，仍是應該先對問題進行斷定分析

常見的逐出誤區

羣集服務不能啓動，逐出了節點2，可是羣集服務仍然不能啓動
資源不轉移到節點2，每次發生故障轉移時，磁盤都不會聯機，沒法返回到節點1，其中一個節點被逐出再添加一個節點仍然有此問題

一旦發生這種排錯狀況，建議查看cluster.log及dump文件進行分析，找到問題真正所在，也許根源是由於RHS死鎖或某個第三方軟件兼容性的問題，在真正斷定問題以前不要輕易執行逐出節點操做，不然排錯時可能沒法完整重現問題

以上爲GUI界面上針對於節點的全部操做，還有一些場景下的操做，幫助你們熟悉下流程

節點開關機

暫停節點 2.關閉操做系統 3.開機操做系統 4.恢復節點

以上爲的羣集節點開關機標準正常流程，還有一些意外狀況，例如羣集上面可能跑了一些特殊角色，開機後須要執行一段程序，才能夠正常跑羣集角色，那這個步驟能夠在第4個步驟前作掉

WSFC 2012R2開始，針對於羣集虛擬機新增了一個屬性DrainOnshutdown

若是咱們忘記執行暫停節點，直接關閉虛擬機，WSFC2012R2開始，會自動按照維護模式操做策略，幫助咱們自動將虛擬機實時遷移或快速遷移至其它節點，羣集其它角色則採用移動掛起操做，全部資源都移走後，操做系統才正常完成關閉操做，該功能也被稱爲「懶人幫手」，一旦咱們忘了暫停節點，背後也會有一個這樣的幫手，幫助咱們去完成維護操做。

節點故障轉移

1.節點宕機 2.其它節點檢測註冊表掛載共享存儲聯機上線 3.節點恢復 4.故障回覆羣集角色

對於羣集故障轉移，這裏特別要說的是故障回覆，這是個老古董了，從2003時代就看到它，故障回覆必須和首選全部者功能相配合，這點和最初如出一轍，便是說若是應用當前在節點1，節點1宕機，應用去節點2，若是但願節點1恢復後應用回到節點1，則應用必須設置首選全部者爲節點1，故障回覆操做能夠爲當即或某一時刻，若是應用對於宿主有要求，須要始終在某一節點運做，能夠配置故障回覆，以便在計劃外故障轉移後故障回覆，2008時代對於虛擬機故障回覆採用快速遷移，2012時×××始故障回覆採用實時遷移。

看過節點級別的操做後，咱們再來看下羣集級別的操做，老王將主要介紹如下操做

關閉鏈接，無實際操做效果，點擊關閉鏈接後，只是在當前故障轉移羣集管理器中，刪除顯示已鏈接的羣集，假設這時一個羣集節點，會有不懂的人來碰你的羣集，那麼爲了不它誤操做，你能夠在他操做以前關閉羣集鏈接

關閉鏈接以後，若是再想鏈接到羣集，點擊鏈接到羣集便可

關閉羣集，中止全部羣集角色，關閉全部羣集節點的羣集服務，若是羣集中有不少節點，能夠經過此操做幫助咱們關閉所有，關閉後羣集對外不可用，若是但願羣集各節點暫時失去羣集做用能夠執行此操做

針對於虛擬機羣集資源，自2008開始，能夠設置虛擬機在羣集關閉的狀況下要執行的操做，默認爲保存虛擬機

數值	效果
0	VM直接斷電
1（默認）	VM保存
2	VMOS正常關機
3	VMOS強行正常關機

Get-ClusterResource "虛擬機資源羣集名稱" | Set-ClusterParameter OfflineAction 2

若要恢復羣集工做，點擊啓動羣集便可，羣集虛擬機默認會從保存狀態中還原，羣集角色會從脫機中聯機

銷燬羣集，拆掉整個羣集，刪除掉羣集全部角色和元數據信息，一般用於測試環境，或從新部署羣集，和關閉羣集同樣，輕易不建議使用，一旦羣集被銷燬後，若是須要在該節點再次搭建羣集，有時需從新安裝羣集功能

在執行銷燬羣集以前，請確保羣集全部角色已被刪除，虛擬機已經導出到其它位置，須要注意，在銷燬羣集過程，虛擬機若是是存放在共享磁盤和CSV，則會被完全關閉，但不會丟失數據，虛擬機的數據會存放在CSV中，重建羣集以後，虛擬機能夠被從新掛載上線，可是銷燬後，重建前，虛擬機將不可用。

若是銷燬羣集時，羣集內仍有未被刪除的虛擬機或角色，將提示如下錯誤

關於銷燬羣集的注意事項

銷燬羣集時全部節點須要在線，若是銷燬羣集時有1節點不在線，隨後該節點又加入其它羣集，將顯示該節點已屬於其它羣集，這時需在節點上執行命令
cluster node hv01 /forcecleanup
這將在該節點上面清理掉全部羣集舊信息的註冊表，以容許羣集加入新的羣集
銷燬羣集過程幕後會逐出節點羣集資格，刪除各節點上關於羣集的配置信息註冊表，若是銷燬羣集後但願重建羣集，重建不成功，請嘗試檢查註冊表配置單元，看是否有殘留舊羣集信息，若是有，請清理後再嘗試重建羣集。
銷燬以後羣集CNO默認在AD中處於禁用狀態，若是但願銷燬羣集後直接從AD刪除CNO，可以使用PowerShell操做
Remove-Cluster -CleanupAD

移動羣集核心資源

羣集中的資源大致可分爲兩種，一種爲羣集運做資源，一種爲基於羣集的應用資源，核心資源也是指羣集運做資源，一個羣集要想運做起來，須要羣集名稱，羣集IP，還會有見證資源，在WSFC 2016以前，大致就是這些內容，這些羣集運做資源也被放置在一個羣集資源組裏面，成爲核心資源組，羣集過程當中會被放置在其中一個羣集節點上，咱們能夠經過圖形界面移動核心資源組至其它羣集節點，2012以前僅能經過命令執行，2012以後支持GUI界面執行，2008時×××始羣集核心資源組會被單獨放置在RHS監視進程中，放置由於羣集其它資源的RHS進程崩潰，而影響整個羣集。

羣集核心資源一般咱們不必管它，除非是排錯時會須要移動，或考慮到羣集負載平衡的場景，若是一個節點承載了不少應用，則能夠把它上面的核心資源移動至其餘節點以減輕負擔

WSFC 2016中，羣集核心組多出存儲QOS資源和 Virtual Machine Cluster WMI

2012以前，使用命令移動羣集核心資源

cluster group 「Cluster Group」 /Move:NodeName

移動羣集可用存儲資源

cluster group 「Available Storage」 /move