一個企業要想走向雲,必須經歷虛擬化的階段。
你們都在朝着雲的方向努力,愈來愈多的用戶開始大規模應用虛擬化,還有不少用戶把核心應用也遷移到虛擬化平臺了。
因而,虛擬化平臺的可用性愈來愈受到關注,高可用,數據保護和容災成爲了熱門話題。
VMware的vCenter SRM是一個專爲vSphere虛擬化平臺所設計的容災方案,簡單高效,若是你想親自體驗一下這個方案,那就參考下面的評估指南吧,由西蒙帶你開始SRM的體驗之旅。
硬件環境準備:
條件容許的話,能夠準備三臺服務器,在主站點建議HA的環境,體驗HA+SRM的效果。
若是沒有硬件存儲,也能夠用Falconstor NSS一類的軟件來代替,我在Falconstor的網站上註冊了好幾回,都說獲得批准了,可就是沒有收到郵件。
下面是架構圖,供參考,咱們能夠簡化一下。
安裝過程簡述
1,安裝ESX/ESXi;
2,建Windows虛擬機,安裝OS,安裝vCenter和vSphere Client,建議兩個vCenter服務器安裝成Linked Mode,這樣鏈接到一個vCenter服務器就能夠管理兩個vCenter上面的資源了;
3,建datastore,並在存儲設備上配置datastore所在的存儲位置(Lun或nfs)的複製關係。
4,在配置了複製的datastore上建立測試虛擬機,在虛擬機內部安裝測試應用,如SQL,Exchange等常見應用。
5,在VC上安裝SRM,並安裝與存儲配套的SRA,安裝完SRA後要記得重啓SRM服務。
6,在vSphere Client上安裝SRM的插件。
準備工做是比較費時的,可是並不難,詳細的步驟就不介紹了,你們能夠參考我以前寫的一些文章。提供兩個網址,能夠下載vSphere和SRM的技術文檔:
VMware vSphere:
容災切換與容災演練流程
容災切換流程:
1,若是相關虛擬機仍然運行在主站且可在容災站訪問,則中止這些虛擬機。
2,掛起存儲複製,在複製端啓動讀寫功能。
3,從新掃描以發現FC或iSCSI設備,若是是NFS設備直接掛載。
4,註冊副本虛擬機到vSphere。
5,若是須要,中止容災端正在運行中的非關鍵任務虛擬機以提供計算資源。
6,按順序在容災站點啓動虛擬機。
7,生成報告。
容災演練流程:
演練不需中止生產端,不會形成沒必要要的停機時間。
1,在容災站點生成一個隔離環境以檢驗容災系統的有效性。
2,從新掃描以發現FC或iSCSI設備,若是是NFS設備直接掛載。
3,註冊副本虛擬機到vSphere。
4,若是須要,中止容災端正在運行中的非關鍵任務虛擬機以提供計算資源。
5,按順序在容災站點啓動虛擬機。
6,驗證服務的有效性,複製演練所作的改變。
7,生成報告。
配置恢復工做流
1,設置站點配對,用SRM管理器配置主站點到容災站點vCenter的鏈接。須要提供vCenter的地址和管理員帳號。
2,爲須要複製的datastore設置Array Manager。須要提供存儲設備的管理地址及管理員帳號,要確保Manger Type選擇正確,若是找不到匹配的Manager Type,則說明對應的SRA沒有正確安裝在SRM服務器上。配置好之後,SRM將鏈接到存儲上,檢查存儲的複製狀況,已經配置好複製的將顯示綠色對號。
3,配置清單映射,把兩個站點中的資源(包括網絡,資源池和虛擬機文件夾)進行關聯,你並不須要爲全部的對象指明關聯對象,只須要對與容災相關的組件進行配置,以下圖中的例子,只爲三個對象指定了對應資源:
4,配置保護組。
首先給出保護組的名字和描述,接下來要選擇Datastore組,這個組是根據Array Manger的報告生成的,與你的複製配置有關。接下來要指定用於建立Placeholder VM的Datastore,佔位符體積很小,能夠選擇任意Datastore,可是請不要選擇複製存儲對應的Datastore,它要隨時與源Datastore保持一致。
5,配置恢復計劃。
進行操做以前,要鏈接到容災站點的SRM,在VC4.1中,能夠直接在vSphere Client的管理界面中切換:
接下來指定名字,選擇對應的保護組,接下來是兩個超時值的設置,網絡超時是指若是到了指定時間虛擬機尚未完成網絡的配置,則記錄錯誤,繼續流程。虛擬機心跳超時是指到了指定時間沒有收到虛擬機心跳信息則記錄錯誤並繼續流程(虛擬機內必須安裝有vmware-tools),這兩個值要計算好,取最長操做的時間值,不然可能會致使誤報。接下來指定用於測試的隔離網絡,而後指定哪些運行在容災站點的虛擬機在須要時能夠停下來釋放資源。
6,配置IP自定義。
若是要配置的虛擬機較多,能夠採用名爲dr-ip-customizer.exe的工具進行批量配置,測試時虛擬機較少,能夠直接使用VC的自定義配置管理器來定義IP地址的改變。
建立一個新配置,只須要填寫網絡地址的部分。
接下來到SRM的虛擬機管理頁面上,指定虛擬機使用這個配置。
7,進行一次測試。
配置完了之後,就能夠開始測試了,點擊測試按鈕發起測試,能夠隨時看到進行的狀態,當全部虛擬機在容災站點完成啓動後,系統會停下來等待檢驗,以下圖,驗證後點擊繼續,嚮導將自動清除測試時所作的修改。
上述的全部操做都有嚮導,因此在管理方面並不複雜。
配置告警和站點狀態監控
SRM會監視虛擬機的CPU利用率,磁盤空間,內存消耗等。固然也會監視SRM的心跳。
vCenter監控到的事件能夠做爲SRM的觸發條件,如:
磁盤剩餘空間小,CPU利用率超出上限,內存太低,遠程站點不響應,運程站點心跳丟失,測試流程開始、結束、成功、失敗或取消,虛擬機恢復過程開始、結束、成功、失敗或生成告警等。
知足觸發告警的條件時,能夠發郵件,發SNMP消息,或是執行腳本程序。
下面咱們以遠程站點Down這一事件爲例,來進行測試,當事件發生時,給主管發送郵件通知。
關於狀態監控,也有一些高級設置能夠進行修改。
實際切換測試
由於是測試環境,咱們能夠隨時進行實際的切換測試,與容災演練的過程仍是有區別的,具體的流程我在前面介紹過了。由於實際的切換影響會比較大,因此在真正開始failover以前還會要管理員再次確認。
反向回切測試
Failback的過程與Failover相似,只是方向相反而己,在SRM中的配置方法都同樣,下面是須要注意的內容:
1,failback以前檢查failover是否成功,若是存在問題,先解決好相關問題。
2,別忘了在存儲系統上切換複製方向。
3,回切前也要先進行演練,以驗證整個過程能夠順利完成。
4,回切前刪除掉原被保護站點上的舊虛擬機。
5,須要在原容災端(新的被保護站點)上配置SRA及其它相關內容。
【全文完】