在WSFC中,你們可能會看到各類操做狀態,例如,暫停節點,中止節點服務,逐出節點,恢復節點,關閉羣集,銷燬羣集,關閉鏈接,這些操做究竟是什麼意思,分別應該用於什麼場景下,今天咱們就來一探究竟,嘀,老王發車啦!node
首先咱們先從節點操做講起網絡
以WSFC 2012R2爲例,當咱們在故障轉移管理器,節點界面下,點擊任意一個節點,右鍵能夠看到如下操做ide
暫停性能
恢復測試
遠程桌面
spa
信息詳細信息操作系統
顯示關鍵事件命令行
首先來看暫停,自2012開始,暫停不只僅只是宣告節點爲維護狀態,而是能夠根據放置策略,自動把被暫停節點上的負載移至其它節點,此操做主要適用於節點維護場景,例如,節點OS不穩定須要進行排錯,爲了不影響上面的羣集應用,先把應用飄走,再進行排錯,或者須要關機加硬件配置,也能夠先將節點置爲暫停,應用移走,關機加配置,加好以後再開機解除暫停狀態,依次操做各節點3d
總結來講,暫停操做主要用於計劃內維護場景,便是說,咱們知道將要發生維護操做,節點將要不可用,那麼我經過暫停操做,就能夠以最小停機時間的方式把資源遷移走,再執行維護blog
默認狀況下2012時×××始,暫停模式有兩個選擇,一爲排出角色,二爲不排出角色,排出角色爲2012新功能,即按照放置策略將節點上面應用放置到合適節點,不排出角色爲2008舊選項,即只宣告節點爲暫停,不接受資源遷移到本節點,上面資源不會被移走
排出角色,在2012時×××始,默認狀況下暫停節點針對於虛擬機執行實時遷移操做,羣集角色執行在線移動操做,上篇文章老王曾經講過,羣集維護,暫停模式能夠和優先級相整合,例如,節點暫停維護,高和中優先級虛擬機得到實時遷移,低優先級虛擬機得到實時遷移,在資源不足的場景下,經過此配置,能夠始終確保更主要的虛擬機得到最高的可用性和遷移性能,參考老王博客 WSFC 維護模式操做粒度控制
說完暫停咱們再來看下恢復,恢復同暫停正好相對應,當咱們置爲暫停,維護完成後,勢必須要節點從新正常提供服務,在2008時代,恢復僅意味着解除節點的暫停狀態,讓節點能夠接受資源被遷移過來,2012以後此舊操做顯示爲不故障回覆角色。2012時×××始,恢復操做新增故障回覆角色,恢復和暫停相互粘合,當咱們把節點置爲暫停後,資源會被遷移至其它節點,當節點完成後,咱們能夠選擇故障回覆角色,讓被遷移走的資源回到原來的節點正常運做,此暫停故障回覆,也參考放置策略,會考慮首選全部者,反相關性,可能全部者等策略,若是節點當前正在首選全部者則不會回覆,若是節點上面已有反相關性資源則不會回覆,若是維護後原節點從資源的可能全部者剔除,則不會回覆。
在一些場景下,開發人員或業務人員可能會對羣集角色或虛擬機有所要求,例如某個資源只能在某個節點上面運行,對於一些重要的資源,固然仍是穩定爲好,能在原來的節點運做就繼續回到原來節點運做,此場景下適用恢復角色功能,2012時×××始,你們做爲羣集管理員,只要有這種意識就好,計劃內維護,就點一下暫停節點,遷移角色,維護完成後點一下恢復節點,遷移回羣集角色
遠程桌面其實也是個有用的功能,例如羣集節點不少,可能16個節點,32個節點,羣集管理員天天會打開羣集管理器進行配置,巡檢,若是發現節點有問題,能夠直接在故障轉移管理器中對節點發起一個遠程桌面,只要節點遠程端口正常工做就能夠直接遠程過去
信息詳細信息,主要顯示對於資源或節點執行操做失敗,失敗的緣由是什麼
顯示關鍵事件,主要用於聚合當前節點或資源的關鍵事件,2008開始,羣集對於大部分資源都會置備這種資源特定的事件管理器篩選,咱們點擊某個節點,或某個資源,顯示關鍵事件,顯示的就是僅當前節點或當前資源的事件。
針對於節點操做除了上述以外,還有一個更多操做,裏面分別是啓動羣集服務,中止羣集服務,逐出節點
啓動羣集服務,一般用於以前因爲某些操做,例如要進行排錯,手動中止了羣集服務,排錯完成後能夠經過GUI啓動羣集服務,或經過命令行
net start clussvc啓動
中止羣集服務,也是用於一些特殊場景,正常狀況下咱們不須要用到它,例如羣集應用若是轉移到某個節點沒法正常工做,咱們能夠經過取消可用全部者,或在這裏停掉該節點的羣集服務,在WSFC 2016以前,羣集服務的中止,即意味着故障轉移,若是一個節點的羣集服務中止,下次運行情況檢測將報告該節點不可用,上面的全部應用或虛擬機將執行計劃外故障轉移操做。WSFC 2016開始,羣集推出VM防瞬斷功能,能夠防止瞬斷狀況致使虛擬機快速遷移,例如若是是一個網絡瞬斷,或羣集服務崩潰中止,只要在必定時間內能夠恢復,則不會觸發快速遷移操做,由於快速遷移會爲虛擬機帶來停機時間,若是您不須要VM瞬斷功能
關閉便可 (Get-Cluster).ResiliencyDefaultPeriod =0
逐出節點,則意味着將節點完全從羣集的可用節點中剔除,已逐出節點永遠不建議再從新加入羣集,逐出節點一般用於如下場景
重命名羣集節點
用不一樣硬件替換節點
節點從新安裝操做系統
永久在羣集中刪除節點
一般來講,逐出節點是一個簡單粗暴的解決問題方式,但它毫不是一個排錯的途徑,若是你能確認,就是由於這臺節點的OS不穩定有問題,那麼您能夠把它從羣集中逐出,新加一個節點進來,或者逐出以後重作系統,再以一個新的節點名稱加入進來。
這種方式雖好,但有時並不能真正的解決問題,有時候咱們覺得是一個節點的問題,但實際上是羣集資源的問題,可能咱們即使逐出了節點,再新加節點仍是會遇到此問題,所以建議不輕易作逐出節點,除非咱們斷定問題緣由,最後執行逐出操做,仍是應該先對問題進行斷定分析
常見的逐出誤區
羣集服務不能啓動,逐出了節點2,可是羣集服務仍然不能啓動
資源不轉移到節點2,每次發生故障轉移時,磁盤都不會聯機,沒法返回到節點1,其中一個節點被逐出再添加一個節點仍然有此問題
一旦發生這種排錯狀況,建議查看cluster.log及dump文件進行分析,找到問題真正所在,也許根源是由於RHS死鎖或某個第三方軟件兼容性的問題,在真正斷定問題以前不要輕易執行逐出節點操做,不然排錯時可能沒法完整重現問題
以上爲GUI界面上針對於節點的全部操做,還有一些場景下的操做,幫助你們熟悉下流程
節點開關機
暫停節點 2.關閉操做系統 3.開機操做系統 4.恢復節點
以上爲的羣集節點開關機標準正常流程,還有一些意外狀況,例如羣集上面可能跑了一些特殊角色,開機後須要執行一段程序,才能夠正常跑羣集角色,那這個步驟能夠在第4個步驟前作掉
WSFC 2012R2開始,針對於羣集虛擬機新增了一個屬性DrainOnshutdown
若是咱們忘記執行暫停節點,直接關閉虛擬機,WSFC2012R2開始,會自動按照維護模式操做策略,幫助咱們自動將虛擬機實時遷移或快速遷移至其它節點,羣集其它角色則採用移動掛起操做,全部資源都移走後,操做系統才正常完成關閉操做,該功能也被稱爲「懶人幫手」,一旦咱們忘了暫停節點,背後也會有一個這樣的幫手,幫助咱們去完成維護操做。
節點故障轉移
1.節點宕機 2.其它節點檢測註冊表 掛載共享存儲聯機上線 3.節點恢復 4.故障回覆羣集角色
對於羣集故障轉移,這裏特別要說的是故障回覆,這是個老古董了,從2003時代就看到它,故障回覆必須和首選全部者功能相配合,這點和最初如出一轍,便是說若是應用當前在節點1,節點1宕機,應用去節點2,若是但願節點1恢復後應用回到節點1,則應用必須設置首選全部者爲節點1,故障回覆操做能夠爲當即或某一時刻,若是應用對於宿主有要求,須要始終在某一節點運做,能夠配置故障回覆,以便在計劃外故障轉移後故障回覆,2008時代對於虛擬機故障回覆採用快速遷移,2012時×××始故障回覆採用實時遷移。
看過節點級別的操做後,咱們再來看下羣集級別的操做,老王將主要介紹如下操做
關閉鏈接,無實際操做效果,點擊關閉鏈接後,只是在當前故障轉移羣集管理器中,刪除顯示已鏈接的羣集,假設這時一個羣集節點,會有不懂的人來碰你的羣集,那麼爲了不它誤操做,你能夠在他操做以前關閉羣集鏈接
關閉鏈接以後,若是再想鏈接到羣集,點擊鏈接到羣集便可
關閉羣集,中止全部羣集角色,關閉全部羣集節點的羣集服務,若是羣集中有不少節點,能夠經過此操做幫助咱們關閉所有,關閉後羣集對外不可用,若是但願羣集各節點暫時失去羣集做用能夠執行此操做
針對於虛擬機羣集資源,自2008開始,能夠設置虛擬機在羣集關閉的狀況下要執行的操做,默認爲保存虛擬機
數值 |
效果 |
0 |
VM直接斷電 |
1(默認) | VM保存 |
2 |
VMOS正常關機 |
3 | VMOS強行正常關機 |
Get-ClusterResource "虛擬機資源羣集名稱" | Set-ClusterParameter OfflineAction 2
若要恢復羣集工做,點擊啓動羣集便可,羣集虛擬機默認會從保存狀態中還原,羣集角色會從脫機中聯機
銷燬羣集,拆掉整個羣集,刪除掉羣集全部角色和元數據信息,一般用於測試環境,或從新部署羣集,和關閉羣集同樣,輕易不建議使用,一旦羣集被銷燬後,若是須要在該節點再次搭建羣集,有時需從新安裝羣集功能
在執行銷燬羣集以前,請確保羣集全部角色已被刪除,虛擬機已經導出到其它位置,須要注意,在銷燬羣集過程,虛擬機若是是存放在共享磁盤和CSV,則會被完全關閉,但不會丟失數據,虛擬機的數據會存放在CSV中,重建羣集以後,虛擬機能夠被從新掛載上線,可是銷燬後,重建前,虛擬機將不可用。
若是銷燬羣集時,羣集內仍有未被刪除的虛擬機或角色,將提示如下錯誤
關於銷燬羣集的注意事項
銷燬羣集時全部節點須要在線,若是銷燬羣集時有1節點不在線,隨後該節點又加入其它羣集,將顯示該節點已屬於其它羣集,這時需在節點上執行命令
cluster node hv01 /forcecleanup
這將在該節點上面清理掉全部羣集舊信息的註冊表,以容許羣集加入新的羣集
銷燬羣集過程幕後會逐出節點羣集資格,刪除各節點上關於羣集的配置信息註冊表,若是銷燬羣集後但願重建羣集,重建不成功,請嘗試檢查註冊表配置單元,看是否有殘留舊羣集信息,若是有,請清理後再嘗試重建羣集。
銷燬以後羣集CNO默認在AD中處於禁用狀態,若是但願銷燬羣集後直接從AD刪除CNO,可以使用PowerShell操做
Remove-Cluster -CleanupAD
移動羣集核心資源
羣集中的資源大致可分爲兩種,一種爲羣集運做資源,一種爲基於羣集的應用資源,核心資源也是指羣集運做資源,一個羣集要想運做起來,須要羣集名稱,羣集IP,還會有見證資源,在WSFC 2016以前,大致就是這些內容,這些羣集運做資源也被放置在一個羣集資源組裏面,成爲核心資源組,羣集過程當中會被放置在其中一個羣集節點上,咱們能夠經過圖形界面移動核心資源組至其它羣集節點,2012以前僅能經過命令執行,2012以後支持GUI界面執行,2008時×××始羣集核心資源組會被單獨放置在RHS監視進程中,放置由於羣集其它資源的RHS進程崩潰,而影響整個羣集。
羣集核心資源一般咱們不必管它,除非是排錯時會須要移動,或考慮到羣集負載平衡的場景,若是一個節點承載了不少應用,則能夠把它上面的核心資源移動至其餘節點以減輕負擔
WSFC 2016中,羣集核心組多出存儲QOS資源和 Virtual Machine Cluster WMI
2012以前,使用命令移動羣集核心資源
cluster group 「Cluster Group」 /Move:NodeName
移動羣集可用存儲資源
cluster group 「Available Storage」 /move