vsan主機高級優化參數配置

esxi6.0 vc6.0
vsan6.2高級參數優化後端

esxcfg-advcfg -s 1024 /LSOM/heapSize
esxcfg-advcfg -s 180 /VSAN/ClomMaxComponentSizeGB
esxcfg-advcfg -s 512 /LSOM/blPLOGCacheLines 默認值爲 128 K,增長至 512 K
esxcfg-advcfg -s 32 /LSOM/blLLOGCacheLines 默認值爲 128,增長至 32 K緩存

* 該參數必須在主機正式部署虛擬機前完成修改數據結構

附錄學習:ide

擁堵代表的含義性能

擁堵是一種反饋機制,它反映了從 vSAN DOM 客戶端層傳入 vSAN 磁盤組所服務的級別的入站 IO 請求速率下降。這種入站 IO 請求速率下降的行爲是由 IO 延遲引發的,而底層的瓶頸會致使發生 IO 延遲。所以,一個有效的方法是,將滯後時間從底層轉移到輸入流量,而無需更改系統的總吞吐量。這可避免在 vSAN LSOM 層中出現沒必要要的排隊以及尾丟隊列,因而避免了在處理最終可能丟棄的 IO 請求時浪費大量的 CPU 週期。所以,不管何種類型的擁堵,臨時和較小的擁堵值一般沒問題,但對系統性能無益。不過,持續和較大的擁堵值可能會致使滯後時間延長和吞吐量下降的程度超出預期,所以應進行關注並解決以提升基準性能。學習

擁堵的報告方式優化

vSAN 衡量並以介於 0 至 255 之間的標量值報告擁堵。引入的 IO 延遲會隨擁堵值的增長呈指數增加。線程

處理擁堵的可行方法
檢查擁堵是否持續且居高不下 (> 50)。許多狀況下,高擁堵值是系統配置錯誤或系統性能不佳形成的。若是一直呈現高擁堵值,請檢查如下項:調試

  1. IO 控制器和設備中支持的最大隊列深度。支持的最大隊列深度低於 100 可能會致使問題。請檢查控制器是否已通過認證並列在 vSAN HCL 列表中。
  2. 固件或設備驅動程序軟件的不正確版本。請參考 VMware HCL,瞭解 vSAN 兼容的軟件。
  3. 不正確的大小設置。緩存層磁盤和內存的大小設置不正確可能會致使擁堵值較高。
    若是問題不是上述任何情況,必須進行調試,肯定是否能夠更好地調整基準,以減小擁堵。您必須注意,是:
  4. 全部磁盤組都出現擁堵,仍是
  5. 一個或兩個磁盤組的擁堵值異常高於其餘磁盤組。
    對於狀況 (1),頗有可能 vSAN 羣集後端沒法處理 IO 工做負載。若是可能,能夠經過如下方法調整基準:
  6. 關閉某些虛擬機或
  7. 減小每一個虛擬機中的未完成 IO/線程數,或者
  8. 對於寫入工做負載,減少工做集的大小。
    對於狀況 (2),即,一個磁盤組上的擁堵遠遠高於系統中的其餘磁盤組,這代表磁盤組間的寫入 IO 活動不平衡。若是持續發生這種狀況,請嘗試增長用於建立虛擬機磁盤的 vSAN 存儲策略中的磁盤帶數。
    報告的常見擁堵類型以及解決方法
    下面列出了擁堵類型和每種類型的補救措施:
  9. SSD 擁堵:特定磁盤組的寫入 IO 的活動工做集顯著大於該磁盤組緩存層的大小時,一般會引起 SSD 擁堵。在混合和全閃存 vSAN 羣集中,數據首先寫入到寫入緩存(也稱爲寫入緩衝區)。一個稱爲降級轉儲的進程會將數據從寫入緩衝區移至容量磁盤。寫入緩存承受較高的寫入速率,從而確保寫入性能不受容量磁盤的限制。不過,若是基準以很是快的速率填充寫入緩存,降級轉儲進程可能跟不上到達 IO 速率。在這種狀況下,會引起 SSD 擁堵,以指示 vSAN DOM 客戶端層將 IO 減速到 vSAN 磁盤組能夠處理的速率。

補救措施:要避免 SSD 擁堵,請調整基準所用的虛擬機磁盤的大小。爲達到最佳效果,咱們建議虛擬機磁盤(活動工做集)的大小不超過全部磁盤組寫入緩存累計大小的 40%。請注意,對於混合 vSAN 羣集,寫入緩存的大小爲緩存層磁盤大小的 30%。在全閃存羣集中,寫入緩存的大小是緩存層磁盤的大小,但不該超過 600 GB。日誌

  1. 日誌擁堵:vSAN LSOM 日誌(存儲未降級轉儲的 IO 操做的元數據)消耗寫入緩存中的大量空間時,一般會引起日誌擁堵。

一般狀況下,小工做集上的大量小規模寫入會致使出現大量 vSAN LSOM 日誌條目,因而會致使出現這種類型的擁堵。此外,若是基準不發出 4K 對齊 IO,則 vSAN 堆棧上的 IO 數將增長,從而引起 4K 對齊。IO 數增長可能會致使日誌擁堵。

補救措施:檢查基準是否與 4K 邊界上的 IO 請求一致。若是不一致,請檢查基準是否使用一個很是小的工做集(訪問虛擬機磁盤的總大小低於緩存層大小的 10% 時,則認爲工做集較小。請參見上文有關如何計算緩存層大小的內容)。若是是,請將工做集增長到緩存層大小的 40%。若是以上兩個條件都不成立,將須要經過如下兩種方法減小寫入流量:減小基準發出的未完成 IO 數或減小基準建立的虛擬機數量。

  1. 組件擁堵:這種擁堵代表,因爲某些組件的 IO 請求排入隊列,導致這些組件存在大量的未完成提交操做。這可能會致使延長滯後時間。一般狀況下,幾個虛擬機磁盤的大量寫入會致使出現這種擁堵。

補救措施:增長基準所用的虛擬機磁盤數。確保基準不向少許虛擬機磁盤發出 IO。

  1. 內存和 Slab 擁堵:內存和 slab 擁堵一般意味着 vSAN LSOM 層所用的堆內存空間或 slab 空間不足,沒法維持其內部數據結構。vSAN 會爲內部操做置備必定量的系統內存。可是,若是基準積極地發出 IO,而沒有任何限制,則可能會致使 vSAN 用光全部爲其分配的內存空間。

補救措施:減少基準的工做集。或者,在體驗基準時提升如下設置以增長爲 vSAN LSOM 層預留的內存量。請注意,這些設置是針對每一個磁盤組的。此外,咱們不建議在生產羣集上使用這些設置。能夠經過 esxcli 更改這些設置(請參見 知識庫文章 1038578),以下所示:

/LSOM/blPLOGCacheLines,默認值爲 128 K,增長至 512 K/LSOM/blPLOGLsnCacheLines,默認值爲 4 K,調整爲 32 K/LSOM/blLLOGCacheLines,默認值爲 128,增長至 32 K

相關文章
相關標籤/搜索