近期,咱們推出高性能SSD雲盤,知足用戶對高性能的場景需求。SSD雲盤相比普通雲盤,IOPS提高了13倍,穩定性提高了3倍,平均時延下降了10倍。爲了作到這些,咱們從去年10月份開始對雲盤的架構進行了從新設計,充分減小時延和提高IO能力;並經過複用部分架構和軟件,提供性能更好、更穩定的普通雲盤;同時逐步引入Stack/Kernel Bypass技術,打造下一代超高性能存儲。新架構推出後,已服務了現網用戶的3400多個雲盤實例,總存儲容量達800 TB,集羣每秒IOPS均值31萬。編程
架構升級要點後端
經過對現階段問題和需求的分析,咱們整理了此次架構升級的具體要點:緩存
1 、解決原有軟件架構不能充分發揮硬件能力的侷限服務器
2 、支持SSD雲盤,提供QOS保證,充分發揮後端NVME物理盤的IOPS和帶寬性能,單個雲盤IOPS可達2.4W網絡
3 、支持更大容量雲盤,32T甚至更大多線程
4 、充分下降IO流量的熱點問題架構
5 、支持併發建立幾千塊雲盤,支持併發掛載幾千塊雲盤併發
6 、支持老架構雲盤在線向新架構遷移,支持普通雲盤在線遷移至SSD雲盤框架
新架構改造實踐分佈式
改造一:IO路徑優化
老架構中,整個IO路徑有三大層,第一層宿主Client側,第二層Proxy側,第三層存儲Chunk層。Proxy負責IO的路由獲取以及緩存;IO的讀寫轉發到下一層存儲層,負責IO寫三份複製。
而新架構中,路由獲取交給了Client,IO讀寫Client可直接訪問存儲Chunk層,寫三份複製也交給了Chunk。整個IO路徑變成了2層,一層是宿主Client側, 另外一層存儲Chunk層。
架構升級以後,對讀IO,一次網絡請求直達到後端存儲節點,老架構都是2次。對寫IO,主副本IO一次網絡請求直達後端存儲節點,另外2副本通過主副本,經歷兩次網絡轉發,而老架構三個副本均爲兩次。讀IO時延平均下降0.2-1ms,寫尾部時延減低,也有效的下降整體時延。
改造二:元數據分片
分佈式存儲中,會將數據進行分片,從而將每一個分片按多副本打散存儲於集羣中。以下圖,一個200G的雲盤,若是分片大小是1G,則有200個分片。老架構中,分片大小是1G,在實際業務過程當中咱們發現,部分業務的IO熱點集中在較小範圍內,若是採用1G分片,普通SATA磁盤性能會不好。而且在SSD雲盤中,也不能均勻的將IO流量打散到各個存儲節點上。
新架構中,咱們支持了1M大小的分片。1M分片,能夠充分使用整個集羣的能力。高性能存儲中,由於固態硬盤性能較好,業務IO熱點集中在較小範圍內,也能得到較好的性能。
但UCloud元數據採用的是預分配和掛載方案,申請雲盤時系統直接分配全部元數據並所有加載到內存。分片太小時,須要同時分配或掛載的元數據量會很是大,容易超時並致使部分請求失敗。
例如,同時申請100塊300G的雲盤,若是按1G分片,須要同時分配3W條元數據;若是按照1M分片,則須要同時分配3000W條元數據。
爲了解決分片變小致使的元數據分配/掛載失敗問題,咱們嘗試改變IO時的分配策略,即雲盤掛載時,將已分配的元數據加載到內存中。IO時,若是IO範圍命中已經分配路由,則按內存中的路由進行IO;若是IO範圍命中未分配路由,則實時向元數據模塊請求分配路由,並將路由存儲在內存中。
按IO時分配,若是同時申請100塊300G的雲盤, 同時掛載、同時觸發IO,大約會產生1000 IOPS,偏隨機。最壞狀況會觸發1000 * 100 = 10W 元數據分配。在IO路徑上,仍是存在較大消耗。
最終,新架構中咱們放棄了中心節點存儲分片元數據的方案,採用了以一套統一規則去計算獲取路由的方案。
該方案中,Client 端和集羣后端採用一樣的計算規則R(分片大小、pg個數、映射方法、衝突規則);雲盤申請時,元數據節點利用計算規則四元組判斷容量是否知足;雲盤掛載時,從元數據節點獲取計算規則四元組; IO時,按計算規則R(分片大小、pg個數、映射方法、衝突規則)計算出路路由元數據而後直接進行IO。經過這種改造方案,能夠確保在1M數據分片的狀況下,元數據的分配和掛載暢通無阻,並節省IO路徑上的消耗。
改造三:支持SSD高性能雲盤
經過上述對比能夠看到,NVME固態硬盤性能百倍於機械盤,但須要軟件的配套設計,才能利用NVME固態硬盤的能力。
SSD雲盤提供QoS保證,單盤IOPS:min{1200+30*容量,24000} 對於SSD雲盤,傳統的單線程模式會是瓶頸,難以支持後端NVME硬盤幾十萬的IOPS以及1-2GB的帶寬,因此咱們採用了多線程模型。
爲了較快推出SSD雲盤,咱們仍是採用了傳統TCP網絡編程模型,未使用Kernel Bypass。同時,經過一些軟件細節的優化,來減小CPU消耗。
目前,單個線程寫可達6W IOPS,讀可達8W IOPS,5個線程能夠基本利用NVME固態硬盤的能力。目前咱們能提供雲盤IO能力以下:
改造四:防過載能力
對於普通雲盤,新架構的軟件再也不是瓶頸,但通常的機械硬盤而言,隊列併發大小隻能支持到32-128左右。100塊雲盤,持續同時各有幾個IO命中一塊物理HDD磁盤時,由於HDD硬盤隊列併發布較小,會出現較多的io_submit耗時久或者失敗等問題。Client側判斷IO超時後,會重試IO發送,形成Chunk端TCP緩衝區積壓愈來愈多的IO包,愈來愈多的超時積壓在一塊兒,最終致使系統過載。
對於普通雲盤,需控制併發提交隊列大小,按隊列大小,依次遍歷全部雲盤,下發各雲盤的IO,如上圖的一、二、3。實際代碼邏輯裏,還須要考慮雲盤大小的權重。
對於SSD雲盤來講,傳統的單個線程會是瓶頸,難以支持幾十萬的IOPS以及1-2GB的帶寬。
壓測中,咱們模擬了熱點集中在某個線程上的場景,發現該線程CPU基本處於99%-100%滿載狀態,而其它線程則處於空閒狀態。後來,咱們採用按期上報線程CPU以及磁盤負載狀態的方式,當知足某線程持續繁忙而有線程持續空閒時,選取部分磁盤分片的IO切換至空閒線程,來規避部分線程過載。
改造五:在線遷移
老架構普通雲盤性能較差,部分普通雲盤用戶業務發展較快,但願從普通雲盤遷移至SSD雲盤,知足更高的業務發展須要。目前線上存在2套老架構,爲了快速達到在線遷移的目的,咱們第一期決定從系統外圍支持在線遷移。
遷移流程以下:
1 後端設置遷移標記;
2 Qemu鏈接重置到Trans Client;
3 寫IO流通過Trans Client 到Trans模塊,Trans模塊進行雙寫:一份寫老架構,一份寫新架構;
4 Trigger 遍歷磁盤, 按1M大小觸發數據命令給Trans觸發數據後臺搬遷。未完成搬遷前,IO讀經Trans向舊架構Proxy讀取;
5 當所有搬遷完成後,Qemu鏈接重置到新架構Client,完成在線遷移。
加一層Trans及雙寫,使遷移期間存在一些性能損耗。但對於普通雲盤,遷移期間能夠接受。咱們目前對於新架構也正在建設基於Journal的在線遷移能力,目標在遷移期間,性能影響控制在5%如下。
通過上述系列改造,新的雲硬盤架構基本完成了最初的升級目標。目前,新架構已經正式上線併成功運用於平常業務當中。在這裏,也談談咱們正在研發的幾項工做。
一、容量具有無限擴展能力
每一個可用區,會存在多個存儲集羣Set. 每一個Set可提供1PB左右的存儲(咱們並無讓集羣無限擴容)。當Set1的雲盤須要從1T擴容至32T 100T時,可能會碰到Set1的容量不足的問題。
所以,咱們計劃將用戶申請的邏輯盤,進行分Part, 每一個Part能夠申請再不用的Set中,從而具有容量能夠無限擴展的能力。
二、超高性能存儲
近10年,硬盤通過 HDD -> SATA SSD -> NVME SSD的發展。同時,網絡接口也經歷了10G -> 25G -> 100G的跨越式發展。然而CPU主頻幾乎沒有較大發展,平均在2-3GHZ,咱們使用的一臺物理機能夠掛6-8塊NVME盤,意味着一臺物理機能夠提供300-500萬的IOPS.
傳統應用服務器軟件模式下,基於TCP的Epoll Loop, 網卡的收發包,IO的讀寫要通過用戶態、內核態多層拷貝和切換,而且須要靠內核的中斷來喚醒,軟件很難壓榨出硬件的所有能力。例如在IOPS和時延上,只能靠疊加線程去增長IOPS,然而,IOPS很難隨着線程的增長而線性增加,此外時延抖動也較高。
咱們但願經過引入零拷貝、用戶態、輪詢的技術方案來優化上圖中的三種IO路徑,從而減小用戶態、內核態、協議棧的多層拷貝和切換,並結合輪詢一塊兒壓榨出硬件的所有能力。
最終,咱們選擇了RDMA,VHOST,SPDK三個技術方案。
方案一:超高性能存儲-VHOST
傳統模式以下,IO通過虛機和Qemu驅動,再通過Unix Domain Socket到Client。 通過屢次用戶態內核態,以及IO路徑上的拷貝。
而利用VHOST User模式,能夠利用共享內存進行用戶態的VM到Client側的數據傳輸。在實際中,咱們利用了SPDK VHOST。
研發環境中,咱們將Client收到IO請求後當即模擬返回給VM,也就是不向存儲後端發送數據,獲得的數據如上圖。單隊列時延能夠下降90us,IOPS有幾十倍的提高。
方案二:超高性能存儲-RDMA+SPDK
RDMA提供了一種消息服務,應用程序利用RDMA能夠直接訪問遠程計算機上的虛擬內存,RDMA減小了CPU佔用以及內存帶寬瓶頸,提供了很高的帶寬,並利用Stack Bypass和零拷貝技術,提供了低延遲的特性。
SPDK能夠在用戶態高併發零拷貝地以用戶態驅動直接訪問NVME 固態硬盤。並利用輪詢模式避免了內核上下文切換和中斷處理帶來的開銷。
目前團隊正在研發利用RDMA和SPDK的存儲引擎框架,研發測試環境中,後端用一塊NVME固態盤,咱們在單隊列和IOPS上能夠提高以下:
包括SPDK VHOST USER的Client側,以及RDMA+SPDK的存儲側方案,預計12月會推出公測版。
總結
過去的一年時間裏,咱們從新設計和優化了雲盤的存儲架構,解決了過去老架構的諸多問題,並大幅提高了性能。通過4個月公測,SSD雲盤和新架構普通雲盤都於8月份全量上線,並保持了極高的穩定性,目前單盤可提供2.4W IOPS。
同時,爲了追求更佳的IO體驗,咱們引入Kernel/Stack Bypass技術方案,正在打造更高性能、更低時延的存儲引擎,預計12月份會推出超高性能雲盤公測版,敬請期待!