[在2018年雲棲大會·南京峯會的飛天技術匯專場中,阿里雲產品專家王登宇帶來了題爲《企業數據創新之旅——高性能NAS助力業務上雲》的精彩技術分享。在分享中,他首先介紹了企業上雲面臨的困難和阿里雲存儲之路;隨後對NAS文件存儲產品家族的技術架構和適用場景進行了分析;分享最後,他結合基因、視頻、AI等具體客戶對NAS助力業務上雲進行了詳細講解。
數十款阿里雲產品限時折扣中,趕快點擊這裏,領券開始雲上實踐吧!
直播回顧視頻
如下內容根據現場分享整理。
時至今日,企業上雲已再也不是一個全新的話題。
5183d21505f63fe64ab59eb28e4ce794be65605e
上圖是IDC在2016年對全球企業級存儲市場增加趨勢的預測:從2015年至2020年五年時間,本地IDC ON-PREM,大約增加了3倍;而云上OFF-PREM 大概增長了4-5倍。當更多企業選擇雲存儲的同時,也給企業IT部門帶來了更多的問題和挑戰。
c664fdf8246050b10990aaf9a36ec663ecbfd9cf
對於傳統企業業務,如數據庫、CRP等業務,通常是使用存儲設備進行存儲,當存儲空間達到極限時,常常面臨存儲沒法擴容、設備過保、升級換代、數據遷移、機房擴建等問題;對於互聯網業務,它不一樣於傳統業務,更多關注的是業務快速上線、避免IT投資風險、業務快速轉型,從而須要橫向擴展能力以及按需使用資源。
面對這些問題時,IT部門的負責人須要考慮如何以最優的方式解決這些問題。阿里雲存儲正是在解決此類問題的過程當中成長起來的。前端
阿里雲存儲之路
1cbc57c0e96e64b9456719b13f950d79d0cedea7
從最初接觸雲儲存至今,阿里雲存儲之路已經整整走了十年。2008年,組建雲存儲團隊,探索阿里集團大規模存儲解決之道;僅隔一年,在2009年,雲存儲團隊便推出了分佈式存儲引擎1.0,爲虛擬機、阿里金融、郵箱、搜索提供通用存儲服務;2013年,實現存儲單集羣5K計算節點,打破Sort Benchmark世界記錄,在377秒內完成100TB排序;在2015年,單集羣更是突破10K計算節點,基本完善阿里雲存儲產品體系,並在2016年,以$1.44/TB的成績得到Indy專用目的排序和Daytona通用目的排序兩個子項的世界冠軍,打破了AWS年保持的紀錄4.51$/TB,雲計算效率世界第一;在2018年。阿里雲存儲團隊推出了分佈式存儲引擎2.0,面向人工智能、科學計算、深度學習等將來存儲場景實現存儲引擎升級,構建全新一代存儲引擎。
飛天統一存儲
93dea1f74e1dcf1c34e19de179524c8738ef3e58
對熟悉阿里雲的同窗而言,飛天必定不會陌生。上圖給出了飛天統一存儲架構圖,做爲阿里雲自主研發、服務全球的超大規模通用計算操做系統,最底層是全球部署的19個地區,幾十個數據中心;其上是基於海量的X86 Linux高性能通用服務器集羣;經過分佈式協同(女媧)、資源管理(伏羲)、安全管理、遠程過程調用(夸父)構建中間盤古分佈式存儲;在盤古之上,是對外提供的不一樣類型的存儲產品,包括塊存儲、文件存儲、對象存儲、表格存儲等;在存儲產品之上,是阿里雲對外提供的MaxCompute、日誌服務、GPU、ECS等各種雲計算產品。
盤古分佈式存儲
c73a05f94388a73f1eee7421959a5448bc2af2c3
上圖給出了分佈式存儲服務盤古的架構圖,主要由盤古核心基礎層、盤古產品適應層和產品層構成;其中盤古核心基礎層又分爲軟硬件一體化層、單機存儲引擎和盤古核心功能模塊。最底層的軟硬件一體化層,主要採用了定製化的新硬件和新介質;在其上,將硬件抽象成單機存儲引擎;在單機存儲引擎之上,造成了盤古核心功能模塊,包括多副本協議、元數據管理、磁盤管理、數據放置策略、數據校驗、糾刪碼。盤古產品適配層提供了塊存儲適配和分佈式文件系統適配,實現一套架構知足上層不一樣雲存儲產品的IO的需求;產品層爲用戶提供了實際使用的雲存儲產品,如對象/表格存儲、日誌/消息存儲等等。
盤古總體分佈式存儲架構使用用戶態的TCP網絡協議棧,減小用戶態與內核態的開銷;同時採用了全面兼容RDMA網絡,經過軟硬件一體化加強網絡的穩定性、下降網絡延遲,逼近網絡物理極限;此外,採用自適應的網絡,針對不一樣場景自由切換識別網絡特徵;最後,在RPC方面也進行了全面優化,全面改進Protobuf的性能,並針對線程模型進行了全面優化。數據庫
NAS文件存儲產品
437deaf9768b13e5969aa7ae902b9d51c9cb5906
做爲本次分享的主題——NAS文件存儲,從2016年初正式上線至今,NAS文件存儲產品家族已經聚合了通用型NAS(又可細分爲容量型、性能型)、NAS Plus、CPFS三大產品。
通用型NAS
962399371d385ec096c1ffb502ac14c5a26e9993
通用型NAS底層基於盤古;盤古的上一層稱之爲前端,它主要是提供NFS和SNB協議的集羣;在前端機的上層是負載均衡;再往上一層就是客戶端層,也就是說NAS產品必定是要配合計算節點進行使用的。
從總體架構來看,Metadata徹底是徹底是旁路的,不佔用總體IO路徑。當客戶端請求通過負載均衡接入處處於空閒狀態的前端機,前端機經過查詢Metadata獲取數據所在的存儲位置,其中對Metadata採用了一些緩存策略,減小查詢次數;查到數據以後,直接從盤古中對數據進行讀取/寫入等操做。從架構中能夠看出,NAS並不是像傳統文件存儲同樣,在某些地方存在性能瓶頸,全部的節點均採用分佈式部署,避免單點故障對系統形成的影響。
經過如上架構設計,通用性NAS實現了高性能、高可靠、高可用:
·單文件系統的吞吐量可到20GBps,IOPS可達到5k;
·性能隨容量線性增加;
·4個9設計高可用,11個9設計高可靠。
在協議支持方面,阿里雲通用性NAS是實現了NFS V3.0/V4.0和SMB v2.0/v2.1v3.0的多協議支持,業內獨創;在安全方面,採用阿里雲共有的安全特性,如VPC、安全組、ACL、多租戶、主子帳號等。
通用型NAS——場景
c2c12c66226d9b2ee686d67aba5da2496ef60d89
因爲通用型NAS簡單易用,企業無需修改NFS/SMB接口;而且具有彈性擴展,容量無限擴展,性能按需知足;此外,用戶能夠按需購買,按使用量計費,無需額外費用;以及下降TCO,即開即用,無需Capex投入的特色,使得NAS在企業有着普遍的應用場景,如文檔共享、視頻存儲、Web站點、移動應用、公共文件夾等。
CPFS並行文件系統
464ccc105000695dda1903bb68f016c7974c0d90
通用性NAS可以覆蓋企業百分之八十的應用場景。可是在一些行業的特殊場景、如AI、深度學習等,數據量很是巨大,通用性NAS是沒法承受如此巨大的壓力的。所以,阿里雲與Intel合做,根據AI時代大數據量的需求,研發了CPFS並行文件系統。該系統的架構如上圖所示:底層依賴於盤古分佈式存儲;中間一層是Intel的Luster的協議和架構;最上層是客戶計算節點,該系統利用了盤古存儲的高可靠和擴展性,同時又兼具Luster並行文件系統高吞吐協議,可以實現單個文件系統1TBps吞吐,1億IOPS。
CPFS並行文件系統——場景
fbfb31d0f258c8d3d9caaee447eab5e210f3ced0
目前CPFS系統處於公測階段,使用者能夠在CPFS的官網上申請測試使用。這裏,強烈推薦無人機、大數據分析、高校科研、人工智能、安防大數據、我的信用畫像、工業製造、生命科學等業務在雲上試用下CPFS並行文件系統;此外,CPFS不只僅在公有云上,在大客戶的專有云上也有對應的輸出。
NAS文件存儲——網絡訪問方式
d5fbf7f46e580f8a438835522d6e376e4b6182f8
文件存儲和對象存儲有很大的區別。目前,NAS文件存儲支持多種網絡連接模式,包括VPC、經典網絡和IDC直連,其中VPC方式是咱們最推薦的一種方式,最爲安全。三種方式的具體實現結構如上圖所示。
NAS File Sync文件同步
8d77bdafff9b586826daf728d14b4b0fa8c7b838
NAS File Sync文件同步是雲存儲團隊上個月剛推出的服務,該服務使得客戶在雲上的數據得以「流動」起來,支持用戶本地數據中心、阿里雲NAS、阿里云云盤之間的自由流動以及跨區域複製,進而實現數據全生命週期管理,實現熱、冷數據分層(熱數據採用文件存儲,冷數據採用對象存儲)。後端
d303c03813843b9032184f8367f4043a72d29663
NAS File Sync文件同步的操做十分簡單:第一步,建立數據源;第二步,建立文件同步任務。僅需在控制檯上簡單的兩步操做就能夠實現文件同步。經過對文件同步進行擴展,如今也支持跨區域的文件同步,經過在控制檯設置跨區域複製,就能夠實現不一樣區域(如圖示華北、華南)的文件同步。
e7efdef29e92898808a6c1d078280cfac82ab6ff
上圖對目前NAS產品進行了總結,這裏再也不一一陳述,用戶能夠根據自身業務的特色和產品的適用場景選擇性的使用。緩存
NAS文件產品使用案例
下面結合上面提到的幾個產品,具體講解一下使用場景。
NAS/CPFS並行文件系統——基因測序存儲利器
2fbc106f0be0b345680f2f33e1703360e277eee1
上圖是NAS產品在基因行業的一個具體案例。目前,國內Top3的基因公司都在使用阿里雲的文件存儲服務。基因公司其中具備表明性的業務場景是數百TB/月測序儀下機數據經過計算和存儲進行後續的測序任務。針對這類業務,咱們推薦使用CPFS並行文件系統,在實地測試中,CPFS在17分鐘內加載完1萬我的類全基因組下機數據。經過使用CPFS文件並行系統,總體優化效果十分明顯,業務流程由以前的5個小時縮短到1,5個小時之內;同時,雲上資源按需使用,TCO下降70%。
NAS Plus 極速IO—搭建高性能彈性Web Server
cbb87af51cb0904d40d29a2047d646de500e66d9
在Web Server方面,阿里雲的某個客戶的業務規模達到日活數百萬。在沒有極速IO以前,該客戶的前端計算業務負負載存在較大壓力。該客戶目標是在六個月內會增長到上千萬日活,原來的架構是遠不能支持這一目標。經過在阿里雲上構建高性能Web Server,採用NAS Plus極速IO文件系統和基於RDMA的網絡以及NVMe SSD,可以提供穩定、500us的超低時延和1M IOPS。經過壓測,知足天天千萬數量級小文件讀寫能力;同時經過異步數據複製,實現跨Region災備能力,實現業務高可用。
NAS Plus智能緩存——支撐雲上視頻非編系統
08b6d87b4e9bdd9f75f1dabe565a62ccf448b3df
視頻行也對IO要求也是極高的。NAS Plus智能緩存經過在客戶端安裝agent,實現對用戶IO進行兩個方面優化:一是預讀,視頻行業在作非編業務時,是將大量數據順序讀到計算節點中,所以能夠經過預讀加速;二是本地寫聚合,全部寫操做在本地進行緩存,進行聚合後再一塊兒寫下來。通過測試,NAS Plus能夠支撐16臺雲圖站每臺20層4K高清編輯,業務流程縮短5倍,同時TCO下降60%。
NAS文件系統—雲上大規模渲染
54c9073191d77969709cbdd33086c09f1cec4abc
NAS文件存儲配合批量計算BCS造成了雲上大規模渲染方案。阿里雲在國內外有着大量的渲染客戶,電影渲染對計算的要求是十分之高。客戶在後期渲染時,須要雲上數千臺GPU同時運行,而通常的公司本地最多也就是幾百臺的規模,沒法實現大規模場景渲染,所以須要將相應的素材數據和鏡頭數據上傳到雲端,利用雲上的批量計算BCS同時加載幾千個計算節點,從後端同時讀取相應的素材數據進行渲染。在上圖所示的架構中,咱們在計算節點和NAS文件存儲中增長了全局分佈式緩存,使得幾千個計算節點避免同時從NAS系統中讀取數據。NAS文件存儲配合批量計算BCS造成了雲上大規模渲染方案。
NAS文件系統——助力AI和機器學習
d58b73f02d8ca85ac64d152aecb68ea579adf26b
對於近年來至關火爆的AI和機器學習,所需的數據量愈來愈大,模型訓練要求的計算資源也愈來愈多。目前,阿里雲在華北提供了一個大型GPU渲染資源池,專門服務此類客戶。客戶的全部數據經過阿里雲高速通道上傳到NAS文件存儲中,經過GPU計算資源來進行模型訓練,大大提高了模型迭代速度。安全
NAS文件存儲——全球部署
a5db21b91635dfc3d54484b2b921889aaa26fc5e
NAS文件系統從2016年3月份上線,同年9月份公測,截止今日,歷經兩年多的風雨。最初,NAS主要服務於國內客戶,集中於華北、華南、華東地區。目前,在阿里雲全球19大Region,NAS已經在16個Region(圖示綠點)開服,在2018年,將會實現全球19個Region的NAS全覆蓋。所以,當企業上雲之路遇到困難時,不妨考慮下阿里雲存儲!請添加連接描述](http://click.aliyun.com/m/49752/)服務器