超融合產品選型 POC 要點之 – 可靠性篇

近年來,超融合 IT 基礎架構的先進理念和巨大價值已經逐步被用戶承認和接受,愈來愈多用戶開始評估和採購超融合產品。面對全新的架構,以及國內市場各類品牌,用戶不免產生諸多困惑:緩存

1.產品的宣傳材料寫得都挺好,實際運行效果如何?超融合是否在個人實際業務中能真正發揮價值?
2.會不會開始使用挺好,但長期使用或者極端狀況下會有各類問題出現?服務器

3.這麼多的品牌如何選?國外的產品這麼昂貴,是否真的物有所值?國內這些基於開源的產品,到底有什麼隱患?網絡

針對以上問題,用戶大多會考慮在產品評估階段引入
POC 測試,用於驗證產品的實際表現,並對各家產品進行系統對比,但應如何進行 POC 測試用例設計?本系列文章由 SmartX 行業資深方案工程師根據大量用戶實際需求整理,力求爲用戶提供一份系統實用的
POC 要點參考。架構

超融合產品POC重點運維

經過超融合專業文章你們能夠了解到,超融合軟件架構主要分爲三大組件:分佈式塊存儲、虛擬化、系統運維管理。而在這三大組件中,最重要的組件莫過於分佈式塊存儲。其主要緣由包括:tcp

1.在超融合產品中,虛擬化和服務器都已經屬於比較成熟的技術,而分佈式塊存儲是近幾年才經過超融合架構被用戶所逐漸採用,須要重點驗證;分佈式

2.分佈式塊存儲不只僅是提供存儲空間,相較於虛擬化和服務器,其出現故障,帶來的影響會更大,直接影響業務連續性、數據可靠性和系統性能等多方面核心指標;ide

3.分佈式存儲開發門檻高,是檢驗產品和廠商技術實例的試金石;工具

4.分佈式塊存儲軟件基於 x86 商用服務器構建,相較於使用專有硬件的傳統集中式存儲,對軟件可靠性、容錯能力、性能以及數據保護能力方面提出了更高的產品設計和實現要求。性能

因此,分佈式存儲組件是 POC 測試驗證的重點,主要包括如下幾個方面:

1.性能相關

2.可靠性相關

3.數據保護能力相關

4.基礎功能相關

5.兼容性相關

本次內容,主要圍繞可靠性相關 POC 測試內容以及須要關注點。

超融合產品POC要點 – 可靠性及數據保護

POC 中的可靠性測試主要模擬相關的故障場景,以測試超融合軟件在不一樣故障場景下的可靠性表現。基於 x86 硬件架構的軟件產品在可靠性設計中有一個前提:硬件是不可靠的,即在服務器任何部件故障或網絡故障的狀況下,分佈式存儲系統必須保證存儲服務的可用性。因此,在可靠性測試中,應儘量多地去模擬故障場景,在不一樣故障場景下,驗證系統的可靠性。

關於超融合系統可靠性的測試主要分如下場景

1.磁盤故障

2.網卡故障

3.節點故障

4.SCVM 故障(VMware環境下)

5.機架故障

6.人爲誤操做

可靠性測試的關鍵指標有:

1.故障發生後可否檢測到

2.故障發生後可否自動修復

3.數據恢復過程當中對整個集羣的性能影響

4.數據恢復量

5.數據恢復速度

6.數據恢復觸發條件

下面根據不一樣的故障場景分別作可靠性驗證:

磁盤故障的模擬和可靠性驗證

1、HDD 相關故障類型及可靠性驗證:

1.顯性的
HDD 故障:當 HDD 因爲壽命到期等顯著的電氣特性問題引發磁盤 IO 錯誤,能夠經過 smartctl 等磁盤檢測工具檢測到。在設備帶外管理中也會有相應的告警,這種故障場景比較容易模擬,在超融合集羣中建立必定數量的 VM ,實現數據在 HDD 硬盤上存放,在 VM 中運行業務(可經過 FIO 或者長 ping 進行模擬)的同時,直接將 HDD 硬盤拔出進行超融合軟件對顯性 HDD 故障的處理,確認 VM 中業務是否有中斷,集羣是否觸發數據恢復,恢復的數據量是否僅爲寫入的數據量而非全盤數據。此外,超融合系統通常都支持 HDD 硬盤的熱拔插,拔出後,能夠進一步驗證拔出的此 HDD 硬盤插入其餘超融合節點是否能夠被識別、掛載並歸入存儲空間。

2.隱性的
HDD 故障:與顯性的 HDD 故障不一樣,在隱性故障下,HDD 未出現顯著的電氣特性問題,沒法經過 smartctl 等磁盤檢測工具檢測到磁盤故障,但因爲固件缺陷或接近壽命,在實際 IO 操做中,出現高頻率的 IO error,這種隱性的 HDD 故障對超融合系統正常運行存在比較大的隱患。這種故障場景能夠在進行正常 IO 訪問過程當中,經過磁盤故障注入工具進行模擬,驗證超融合系統是否能夠及時識別這種隱性的 HDD 故障以及恢復數據量等其餘關鍵指標。

HDD 磁盤比特反轉致使的靜態數據損壞:因電磁輻射或磁頭故障致使 HDD 硬盤上的某些 bit 反轉致使數據不可用,比特反轉隻影響部分 bit 位,不會致使整塊 HDD 硬盤不可用。這種故障出現的機率不高,但一旦出現,若是超融合軟件層面沒有檢測機制,極容易帶來副本之間數據不一致,以及數據不可用的風險。這種故障場景能夠經過 FIO 測試工具進行模擬,經過 bit 錯誤注入,驗證超融合平臺是否能夠經過 CheckSUM 機制檢測到以上故障,並經過數據恢復的機制實現副本之間的數據一致性。
2、 SSD 故障下的可靠性驗證:

SSD 因爲溫度過高、意外斷電等問題致使故障不可用時,SSD 內的數據會離線,節點上的部分副本數據開始數據恢復,部分業務虛擬機由集羣的其餘副本提供支撐(雙副本和三副本),業務不中斷,集羣自動感知故障,併產生數據恢復,用來保證集羣的可靠性。

這種故障場景能夠經過直接拔掉正在運行的 SSD 進行模擬,測試中須要驗證 SSD 故障是不是單點故障;驗證數據恢復量與 SSD 硬盤容量之間的關係(
某些超融合系統有磁盤組概念,單塊 SSD 故障會引發整個磁盤組不可用,數據恢復量遠超 SSD 寫入數據)。

此外,超融合系統通常都支持 SSD 硬盤的熱拔插,拔出後,能夠進一步驗證拔出的此 SSD 硬盤插入其餘超融合節點是否能夠被識別、掛載並歸入緩存空間。

3、網卡故障的模擬和可靠性驗證:

1.管理業務網卡故障,沒法經過該節點管理超融合集羣

2.業務網卡故障,業務虛擬機沒法經過網絡正常提供服務

3.存儲網卡故障,節點的數據離線,業務虛擬機沒法在該節點正常運行

網卡故障能夠經過拔掉網線、關閉任一交換機進行模擬。超融合系統經過多網卡綁定的方式保證集羣網絡的冗餘。超融合系統支持的網卡綁定模式有 active-backup、balance-slb 和 balance-tcp,針對不一樣的綁定模式,須要交換機作對應的設置,配合交換機的使用。能夠在綁定的 N 塊網卡中至多 N-1 塊故障時,業務不會中斷,當原網卡恢復正常後,系統會自動關聯網卡,並將網卡加入到集羣中。

4、節點故障的模擬和可靠性驗證

當節點因爲硬件問題、軟件 BUG 致使斷電、關機、重啓等故障時,節點前置面板告警示燈會亮,帶外管理也會有相應的告警提示,該節點上運行的業務虛擬機將暫時沒法提供服務,同時節點上的副本數據離線。其餘正常節點上的業務虛擬機業務不中斷,故障節點上的業務虛擬機開啓高可用後會自動遷移到其餘正常節點,集羣自動感知故障,併產生數據恢復,用來保證集羣的可靠性。

這種故障經過對節點直接斷電進行模擬,在超融合集羣各個節點上均建立必定數量的業務虛擬機,在業務虛擬機中運行業務(可經過 FIO 進行模擬),經過如下指標觀察超融合平臺的健壯性。

1.節點失效到觸發數據恢復須要的時間(考慮系統是否足夠敏感)

2.節點失效到虛擬機 HA 到其餘節點須要的時間(考慮系統是否足夠敏感)

3.節點長時間失效,數據恢復量(模擬須要長時間修復機器宕機問題)

4.節點短期從新上線,數據恢復量(模擬重啓解決機器宕機問題)

5.恢復速度(節點數量是否影響恢復速度)

6.業務虛擬機的性能(節點故障是否對整個集羣的虛擬機都有影響)

7.關閉業務虛擬機運行的業務(考慮恢復速度是否感知業務壓力自動調速)

5、SCVM 故障的模擬和可靠性驗證

虛擬化集羣使用 VMware 平臺時,因爲 SCVM 誤關機、意外宕機等沒法提供服務,該節點上運行的業務虛擬機處於計算資源可用(ESXi
主機正常),存儲資源不可用(分佈式存儲控制虛擬機不正常)的狀態。這種故障若是沒有好的處理機制,那麼在故障發生時容易形成業務不可訪問的災難。

這種故障能夠經過對 SCVM 直接關機進行模擬,故障發生時會有短暫的 IO 卡死,該節點會經過 IO 重路由功能鏈接到正常節點上 SCVM 的存儲網絡上,從新創建一條新的分佈式存儲數據鏈路。在創建的過程當中,業務虛擬機會有短暫的 IO 卡死,該功能是鏈路的從新鏈接,虛擬機業務不會中斷,所以也不會觸發 VMware 平臺的 HA。當 SCVM 恢復後,集羣會自動感知,併產生數據恢復,同時集羣也會檢測舊數據是否可用,來減小數據恢復量。

6、機架故障的模擬和可靠性驗證

超融合集羣放置在多個機櫃上,機架因供電問題致使一個機架的全部節點所有離線時,其餘機架供電正常,該故障發生時,若是超融合系統沒有對應的可靠性機制,可能會因爲業務虛擬機的全部副本都在同一機架的節點上,致使數據離線,業務沒法正常運行。

這種故障經過對某一機架斷電進行模擬,超融合系統配置 「機架感知」 功能後,根據機房物理拓撲結構,將副本分配在不一樣的機架、機箱、節點上,有效減小甚至避免物理硬件(電源、交換機等)故障致使的數據丟失。正常節點的業務虛擬機正常運行,故障節點的虛擬機在資源足夠時遷移到正常節點上。

7、誤操做的模擬和可靠性驗證

業務虛擬機維護人員在平常工做中,誤刪除虛擬機的某個文件,甚至刪除業務虛擬機,想要找回數據時,對於分佈式存儲幾乎不可能完成,當事情發生時,根據業務虛擬機的重要程度,會有不一樣程度的損失,甚至會給公司形成重大損失。

該故障可經過手動刪除業務虛擬機中的文件和刪除業務虛擬機兩種操做進行模擬。使用超融合的定時快照功能,根據不一樣的快照對象(虛擬機、iSCSI LUN、NFS File 和虛擬機的磁盤),選擇不通的快照時間(按月、周、天、小時),保留多個快照組(最多 16 組)。在誤操做發生後,能夠經過重建事先作好快照來恢復數據。

在超融合系統中驗證快照功能時,經過如下指標觀察快照是否實用:

1.建立快照速度(考察快照的實現機制)

2.虛擬機作多組快照(考察快照保留的最大快照組)

3.建立和刪除快照,查看集羣性能(考察快照對集羣性能的影響)

4.對多個虛擬機作快照,記錄時間(考察作快照與虛擬機大小的關係)

5.刪除中間快照和刪除虛擬機,其餘快照可用(考察快照之間是否依賴)

6.對多個虛擬機作快照回滾和重建,記錄時間(考察快照與虛擬機大小的關係)

對業務虛擬機作快照時只複製元數據信息,而不是對虛擬機作一個完整的快照,既節省空間使用率,同時快照能夠秒級和快速恢復。使用定時快照的功能,根據重要程度,制定不一樣的快照計劃,同時按期清理無用快照,在快照功能頁批量操做快照,能夠爲您減小誤操做形成的損失。

相關文章
相關標籤/搜索