數字化轉型之基礎設施篇 | 超融合系統的選型與實踐

據 IDC 最新報告預測,2022 年中國 50% 以上的組織都將成爲數字化堅決者,依靠新的商業模式、數字化產品與服務實現業務增加。後端

面對數字化轉型的時代浪潮,青小云爲你們準備了一份硬核大禮 —— 《數字化轉型之路》,包含基礎設施業務架構解決方案行業實踐將來探索五個部分,該系列是對數字化轉型理論與具體實踐路徑的系統梳理,但願幫助讀者全面準確把握數字化轉型發展趨勢與前沿技術,促進企業與組織可以在變革的數字化世界中創造更大的價值,實現更強健的生命力。 緩存

img

今天與你們分享的是《數字化轉型之路》中基礎設施篇——超融合系統的選型與實踐。服務器

如下是分享正文:網絡

數據中心趨勢

img

2019 年數據中心有四大趨勢,高密度服務器須要更強的計算能力,英特爾 9282 CPU 達到 58 核心,一顆 CPU 58 顆核心,兩臺有 100 多個核心。除了英特爾,如今很火的是國產 CPU,你們看到飛騰、華爲也在發佈 CPU,每一個 CPU 64 核。AMD 最新的也是 64 個核心。在 2U 服務器裏能夠很輕鬆擁有 128 個核心,這是至關誇張的計算量。過去 8 部服務器也就達到 64 個核心的程度,如今核心數足夠知足高密度的部署需求。多線程

有了核心,如何解決內存?架構

在英特爾最新的第二代至強處理器裏,如今能達到 6TB 內存,一個 2U 服務器能夠達到 6TB 內存,這個內存存儲量是過去小型機或者必須是 8 臺服務器纔可能達到的存儲量。服務器性能足夠強大帶來的好處就是,咱們能夠把計算、網絡、存儲都放在一臺服務器融合解決。併發

融合後解決了單個服務器的計算問題,那如何解決網絡?分佈式

前面提到超融合出現的主要緣由在於萬兆以太網價格降低了。2019 年,25G 價格和萬兆以太網是同樣的價格,不要驚訝,這就是事實。oop

咱們知道全部的產品技術,10G 芯片、25G 芯片無非是流片,流片出來後芯片用的人多,分攤的成本越低。25G 以太網從 2018 年 Q3 正式在中國大型互聯網公司部署開始,只有大型互聯網公司開始部署高帶寬網絡後,它才能給整個供應鏈帶來巨大的需求。到如今爲止 25G 網絡已是主流,給咱們帶來的好處是 25G 網絡比原來 10G 網絡還便宜。性能

更低延時,25G 網絡基本都是配上低延遲網絡使用,其中包括 RDMA、RoCE V2 和 iWarp 這三種技術,都是低延遲的網絡。如今 25G 網絡,能買到的 25G 的網卡都都有 RDMA 和 RoCE 功能,其成本很是低。

高速存儲,PCM 存儲就 Optane 和 AEP 這兩種。它跟原來閃存最大的區別是延遲達到 1 個微秒和 10 個微秒級別,速度僅次於內存。這兩個產品的出現給咱們服務器的配置帶來新的玩法,看怎麼利用 AEP 和傲騰下降寫延遲,經過 AEP 方式下降內存成本。

NVMe 閃存比較常見,大概是 90 微秒左右的延遲,可是軟件定義網絡很重要的一點在於你全用 CPU 計算,CPU 能力耗了很是多,並且 CPU 不大適合作軟件的工做,它要求高轉發效率。轉發效率要求 CPU 主頻高,58 核心的 CPU 不可能超過 4G 主頻,越高的核心數意味着主頻下降。你選擇超融合時但願有更高核心數時,你必定買不到主頻很高的 CPU,中間是矛盾的。這時咱們要怎麼作?

須要咱們在網卡上作工做,咱們新的數據中內心全部的網絡再也不走 CPU,而是走網卡實現。因此要求網卡具備軟件定義網絡的功能,有無狀態卸載能力,經過卸載增強網絡包轉發能力。

上一代服務器內存配置

img

相信不少人熟悉這張圖,這是英特爾上一代 CPU 的架構,對應 CPU 平臺是 E5 V3 V4。

它的內存怎麼放的?

每個 CPU 放多少個,這是 12 個內存條。兩路服務器通常是 24 個內存條,每一個 CPU 會有三個併發 Channel,它有三個 Channel。兩個 CPU 經過 QPI 互聯,這邊有 012 三個 Channel,每個內存通道上有一個內存,最多在上一代 CPU 裏每一個內存通道里能插三個內存。你們作 PC 機的就知道,最先有 DDR 概念,單 CPU DDR 必定會配成對的內存,才能用多通道的能力。

這種架構裏至少須要每一個內存通道都要插一個內存,你會發如今上一代 CPU 裏,若是你的內存數量是 8 的倍數,性能很好。意味着上一代 CPU 配置裏應該是 128,16G 應該是 8 乘 16,12八、25六、512,這樣的比例能夠獲取上一代 CPU 最強的性能。

上一代 CPU 的缺點是當你的內存離 CPU 最近時,它可能性能最高,時間低包括主頻。當你把 24 個內存插滿時,整個內存會降頻。通常在上一代裏這樣的配置,24 個內存條插滿,它的內存性能從 2133 會降到 1600,損失很大的內存性能。在上一代 CPU 裏,通常咱們最優的性能是插 8 根或者 16 根內存條。

Intel purely 平臺內存配置

img

最新的 Purely 平臺發生了巨大變化,每一個 CPU 內存通道變成 6 個,但它仍是放 12 個內存,每一個通道上能夠插 2 個內存,2 乘 16 仍是 16 個。在這一代裏,你們一推理就知道這一代必定是 12 代的倍數最好。爲了性能平衡,兩邊數量必定是對稱開放的。

咱們在超融合項目裏常常有客戶要求配 5 根 16G 內存或者 5 根 32G 內存,很是浪費 CPU 內存通道。5 根意味着什麼?意味着一邊放三個,另外一邊放兩個,徹底不平衡。不平衡的話性能會達到什麼樣的差距?如下表爲例。

img

以 Purely 爲例,若是每個 CPU 配 1 根內存,你能夠看到你得到的性能只有 18%。你花了大價錢買了英特爾最新的平臺,你用的內存只有 18%。當你有 4 根內存條的時候,你這麼放有 35% 的性能。有 6 根時有 51% 的性能,8 根的時候是上一代我最喜歡的 8 乘 16G(128G)的時候,你只能得到 67% 的性能。

這也是爲何不少客戶那邊 CPU 換了最新一代,內存還要求跟上一代同樣 128,最後一測特別是用於跑 Redis 等須要內存性能的,包括內存帶寬特別敏感時,發現怎麼不如上一代?

那麼最佳配比是怎樣的?往下看。

img

這頁出現了兩個最佳配比,一個方案是 2 個 CPU 各配 6 個內存,每一個內存通道嵌入 0-5 都用上,這是一個徹底平衡的方案,兩個 CPU 徹底平衡。這時候能夠達到 97% 的性能。在這一代 CPU 裏最高的性能是你把全部內存通道插盡是百分百的性能,從成本考慮 12 根夠了。

在這一代 CPU 上,最佳內存配比是 192G、384G。若是有的用戶對這個瞭解能夠推算各大雲廠商的配置,你會發覺這一代不管是阿里雲、騰訊雲仍是青雲,它的虛擬機內存和最大規格恰好是這個的配比,這就是緣由所在。

雲計算對 I/O 的挑戰

img

雲計算沒法像傳統存儲那樣爲不一樣的應用劃分不一樣的卷,過去咱們學存儲時,它的數據存儲空間必定是 8K 隨機或者 4K 隨機,這種隨機的場景用 NFS 分卷可能更好,傳統存儲能夠這麼作。超融合不能這麼作,全部的應用都是放在一樣的配置和服務器上,有大塊小塊,也有隨機的 IO。用傳統 HDD 確定沒法知足,不管你怎麼優化。

咱們從 2014 年到 2016 年花了三年時間想盡辦法把 SAS 盤的性能用到極致。2014 年上線時青雲的 IO 性能在純機械盤狀況下也是最好的,咱們當時是 8 萬 IOPS,到如今爲止青雲在 IO 這一項依然是業界領先的。緣由是什麼?

最先咱們經過機械鍵盤進行優化,那時候咱們用了開源技術,隨機順序化得到比較好的收益。機械盤最大的問題是響應時間長,72000 轉、15000 轉,如今你們都不用 15000 轉了,服務器也不提供 15000 轉。緣由在於 2016 年時 15000 轉每 GB 成本高於 SSD,不必,15000 幾乎停產。如今能看到的是 7200 轉和 10000 轉。主流是 10000 轉,在不少客戶那裏都是這樣,可是青雲不是,青雲在 2016 年淘汰了全部 10000 轉 SAS 硬盤。

img

IOPS 性能方面,須要解決雲計算的要求,這張表把容量跟延遲標註了出來。

SRAM,誰也買不起,這是以兆計算,一個 CPU 裏多少 K 指令級緩存,那麼點錢就那麼點空間,很是貴。新的技術是 DRAM,內存是你們經常使用的。新的技術是英特爾 AEP,它介於內存和 SSD 之間。大量狀況下你能夠用 AEP 內存當 DRAM 使用。

如今最新的服務器上,咱們最新推出的公有云實例是 E2 ,有一個超大內存的實例。每個 VM 容許你掛 256G 內存,這是過去不敢想象的。這個主機利用了 AEP 的技術。AEP 和咱們用 128G AEP 和 32G 內存作搭配,系統會自動把這個內存當作 AEP Cache 使用。在這種狀況使用,咱們通過測試,AEP 10% 的內存使用後,性能只會相對於全 DRAM 場景降低不到 10%。對大部分場景來講,若是你有大的內存需求,AEP 加上 DRAM 是很是好的幫你下降成本的方案。

從容量方面來看,咱們有 1U2PB 的存儲產品,這在過去是不敢想象的。爲何 1U 能作 2PB 呢?如今業界最大的單盤容量是 64TB,這個設備 1U 裏有 32 個硬盤插槽,因此能夠提供 2PB 的存儲空間。它能提供帶寬和性能是傳統 SSD 沒法對比的。

從圖中右側的性能來看,傳統認爲 1 個 SATA SSD 跟 15000 轉和 72000 轉比,能夠看到 SATA SSD 至關於 1100 多塊 SAS 機械盤,至關於 5000 塊大容量 3.5 寸 SATA 機械盤的性能。1 個 PCI-E 的產品能夠作到將近 10 倍的 SATA 性能,從性能來看至關於機械盤的將近 1 萬倍。

這就避免了用戶用機械盤形成爭搶,延遲大、帶來很差的體驗。從 2016 年咱們就下定決心作把公有云上海 1 區全部磁盤換成 PCI-E SSD。那時候很貴,可是要給用戶帶來體驗。青雲的存儲,不管是公有云仍是私有云性能都是很是強勁的。

NAND Flash 成本大幅下跌

談到性能你們還會關心一點,成本,怕這個東西很好可是太貴了。以前給你們展現過 SSD 和機械盤的成本,此次不以我本身觀察的數據爲例,舉一個公開的例子。

img

這是 TrendForce 對 NAND 價格的預測,能夠看到 2017 年經歷了內存的漲價,三星、美國和東芝聯合漲價,發改委出面說大家這有壟斷性質,2018 年開始價格飛流直下。如今能夠看到降低趨勢很抖,幾乎到 45 度。

2018 年科技大量過剩,致使產量產能很是多。供應鏈上層的電子元器件價格下降了,有愈來愈多的 Controller,有國產的 Controller,也有國外的 Controller,價格也下降了。加上容量從原來 MLC 變 TLC,如今 QLC 出現了。一樣的平米上,原來是蓋別墅的,如今改一兩百層的樓。這會致使原來一樣面積上有更多的容量出來,價格降低了。

價格降低到什麼程度?不說別的,咱們看京東。找英特爾,還不是咱們的國產,如今英特爾的價格是多少?歷史趨勢簡直是跳水,2348 元 = 1.92 元 / TB。東芝 1.2 TB 價格一直波動,1 萬轉硬盤幾年的價格差很少都這樣。容量 S4510 是 1.2 元 1GB,機械盤要 1.49 元 / GB,請問還選它幹嗎?

img

因此不少表示「須要拿 SSD 用 SAS 機械盤的 Cache」的用戶,學過數學你就知道這是無厘頭,你這是在拿便宜的產品當貴的產品。懂的人還好,不懂的人特別喜歡用 SATA SSD 作 Cache,SATA SSD 順序寫入性能還不如機械硬盤。

咱們遇到一個真實的案例,這個案例在某一個國企裏,用戶很是倔,我要跑 Hadoop,你必定要用 Cache 盤,配完了寫的性能從 2GB 直接降到 0.5GB。爲何?SATA 接口 6GB 而已,SATA 機械盤 S4510 是讀密集型的盤,其寫的性能差很少 340 兆左右,絕對幹不過 10 個機械硬盤。10 個機械硬盤組一個 Read 能夠幹掉 1GB 的順序寫帶寬。

在這種場景下根本沒有意義,這種方案純粹浪費錢,你還要考慮緩存命中率的問題。實際可用性能更差,一旦有 Cache,最大問題是用戶體驗很很差。你 Cache 命中了 IOPS 很高,Cache 不命中的時候一降低到比機械盤還差。

在有 Cache 狀況下,一旦沒有緩存命中第一件事要作的是 Cache Miss。首先一個 IO 去查沒有命中,再讀機械硬盤或者寫機械硬盤,性能很是差,還不如純機械盤的場景。SAS+SATA SSD 或者 PCI-E SDD 根本沒有意義。咱們在超融合的推薦上,通常告訴用戶直接閃存。

閃存還有一個什麼好處?咱們通常不告訴用戶,用戶不少時候不大願意接受這一點。閃存是能夠壓縮的,咱們提供分佈式存儲,閃存有 50% 以上的壓縮比,實際成本變成 6 毛錢。這是爲何咱們從 2016 年上海區開的時候就敢用全閃存,那時候閃存的價格大概是機械盤的 3 倍。

公有云上有一個特色,你們共用,你們的數據可能都差很少。你們知道一個 Windows Image 是多少嗎?落到盤上可能不到 1G,若是你不作壓縮,佔用是 100GB。在公有云上,我只佔用 1GB。在公有云上,咱們平均的壓縮率達到 40% 左右,1TB 數據寫下去大概是 0.4TB 是落盤的,真正須要佔用存儲空間。咱們纔敢在 2016 年完成全閃存,咱們很是開心,由於太便宜了。咱們在公有云上不會再選擇機械盤的方案。

網卡 Offload 對網絡性能的提高

img

網絡方面採用網卡進行硬件 Offload 的方案。在 KVM 虛擬機上用軟件作 SDN ,最大帶寬只能達到 11.1GB。但其實咱們用的是 25G 網卡,CPU 纔是瓶頸,能夠看看咱們公有云的 CPU 型號,已經很是高端了,但仍是跑不到這個網卡的上限。

當咱們開啓網卡 Offload 功能後,其帶寬幾乎增長一倍,對 CPU 佔用只增長 0.1 SI。若是是多線程的,到 45.4GB 時,個人 CPU 佔用反而下降了 75%,這個 CPU 可讓我更多的使用,對公有云來講,能夠下降 VM 的成本。若是開啓 Offload,單線程帶寬只有八分之一的 CPU 佔用,同時 PPS 提高 36%,多線程大概提升 3.8 倍左右的性能,同時 CPU 佔用下降 80%。這麼簡單的功能帶來這麼可觀的收益。

因爲各路友商和青雲的採購,致使上游供應鏈成本急遽降低。這樣的網卡相對於過去你用沒有 Offload 的網卡,好比英特爾 8599 只剩下 100 美金,如今是人民幣 700 多塊錢。一臺服務器怎麼產也有 3 萬塊錢。700 塊錢幫你提升這麼多性能必定是值的。

咱們在超融合裏網卡都是 Mellanox,咱們售前經銷商問咱們爲何必定要這家網卡?咱們也想有其餘家的,但比較遺憾,在業界頂尖的技術每每只有一兩家能夠供應。業界第一的廠商就是這家以色列公司,他們如今是最靠譜的。

RDMA 對存儲性能的提高

img

過去 RDMA 貴,只在 HPC 高性能計算集羣裏用,他們須要低延時,那時候用的是專有網絡,很貴。如今進入以太網,他用了一個方案是 RDMA over Converged Ethernet,這個產品在 100 英鎊的網卡上,你不用再加錢,你這 100 美金既有 Offload 的功能,也會有 RDMA 的功能,花得很值。

有了 RDMA,咱們只須要交換機有一個基礎功能——流控,不管你是 DCB 仍是其餘的流控,這種狀況基本普及。咱們有一家合做夥伴,他們自研芯片都有這個功能。主流的華爲、華三包括思科交換機都有這樣的功能。在下一代芯片裏,交換機流控功能都不須要就能夠作到 RDMA 的低延時。

咱們以存儲爲例,後端是閃存,我要運行程序寫副本時會帶來什麼好處?經過 RDMA 鏈接之後,性能提升 38%,延遲降到 88% 左右,這是 NeonSAN 的測試。能夠從這個測試上看到,延遲低於 1 毫秒的,若是沒有 RDMA 網絡,這個毫秒立刻變得很高,從 1.2 變成 1.9,將近有 90% 的下降。

均衡擴展以提升性能

在作超融合時,計算、存儲、網絡必定要綜合考慮,千萬不要配 100 多核的 CPU,下面網絡配 10G。有些用戶說要用千兆網,實施人員就很痛苦,用戶說我不要求性能,過幾天他發現這樣的機器上只能跑幾個 VM ,而後他就要性能上去,這很難去改。

在選擇時必定要注意均衡擴展*超融合**的配置。*

img

以這個爲例,你用最好的 CPU 860 配機械盤能跑多少 VM?大概 12 臺 VM。換成 SSD 後,14 臺 VM。瓶頸在 1GB 網絡,由於它是分佈式存儲,它必定須要有足夠帶寬把它的數據副本輸到另外一個節點,必定是網絡的瓶頸。

用戶換到 10GB 網絡,提升了 10 倍,VM 數量幾乎提升了 1 倍。這時候發現什麼問題?它選擇的仍是 SATA SSD,SATA SSD 是 6GB 帶寬,延時很高,協議致使的。它原來是爲機械盤定製的協議,不是給閃存使用的。用這麼好的 CPU、網卡,25G 的只跑這一點,其實沒達到省錢的目的。

真正的省錢是平衡你的計算、網絡和存儲。

好的 CPU、NVMe 的存儲, 25G 的網絡,92% 的利用率,你的 CPU 沒有白費,都用上了,能跑 46 臺虛擬機。你這麼配之後,美金數感受好像提上去了,但其實並不虧。整體來看配低端 CPU 是價格便宜一些,可是每臺上面能跑的虛擬機太少了。

從兩個角度來講,硬件角度,你用高端的對用戶有利,對咱們沒利,由於青雲是賣軟件的公司,用 3 臺服務器解決的我只能賣 3 臺服務器的軟件。從折舊來看,三五年的折舊在這個方案裏也是最好的。

咱們歷來不會坑用戶,而是本着用戶利益爲主,用這樣的機器不只省了軟件、CPU 和許可證的費用,同時你的 VM 數量提升了,這種平衡的配置給你帶來整體解決方案的成本是最優的。有了性能,又有了更低的運營成本。在超融合裏,你們必定注意,解決方案總體成本比單機成本更重要,必定要採用均衡的 CPU 內存和網絡配置。

相關文章
相關標籤/搜索