2018數據庫直播大講堂峯會HBase專場,阿里雲技術專家陸豪帶來雲數據庫HBase產品架構場景解析。本文主要談及了雲HBase產品架構,進而着重分享了雲HBase應用場景解析和典型客戶案例,接着介紹了雲HBase內核優化及特性,最後對雲HBase平臺運維和穩定性保障做了簡要分享。
直播視頻:https://yq.aliyun.com/video/play/1333
PDF下載:https://yq.aliyun.com/download/2458
如下是精彩視頻內容整理:算法
關係型數據庫主要解決中小規模存儲需求,當數據量變大後,會有分庫分表以解決必定容量的需求實現複雜、業務感知,當數據量達到海量存儲時,會有分佈式存儲、海量存儲,數據庫會犧牲一些一致性要求達到千萬併發及QPS。
傳統關係型數據庫遇到的問題主要包括四個方面:數據庫
而HBase使用普通磁盤,其分佈式存儲能夠輕鬆知足從GB到PB的需求,能夠自動橫向擴展,知足高達5000w QPS需求,Spark on HBase原生支持分析需求,經過分析HFile能夠加速分析性能。
HBase支持實時更新、增量導入、多維刪除、隨機查詢、範圍查詢,它是高伸縮、高可用、高可靠、高性能、高適應在線分佈式NOSQL數據庫。安全
HBase還解決了其它關係型數據庫解決不了的問題,支持多版本、動態列、異構存儲等。性能優化
ApsaraDB HBase提供安全、多活、穩定性和同步等運維體系,底層基於共享存儲作到計算存儲分離,咱們使用的HBase內核是在阿里HBase內部版本,相比開源版本作了不少改進,性能方面有必定的提高,HBase自然支持KV方式訪問,在HBase之上集成其它組件能夠提供更豐富的訪問形式,咱們和阿里其它產品作到很好的打通,能夠很好支持流式處理、批處理和機器學習需求。
ApsaraDB HBase主要特性包括容量大(200G-10P)、動態擴容、高併發/高吞吐量(1W-5000W)、強大豐富的生態。架構
ApsaraDB HBase支持豐富接口,好比KV、SQL、表格存儲、文檔類型等。併發
ApsaraDB HBase產品形態分爲集羣版和單節點版本,單節點版主要知足測試開發的需求,成本極低。集羣版又分爲雲盤和本地盤,雲盤特色是存儲與計算分離,能夠很方便擴容,本地盤與用物理機搭建HBase一致,存儲與計算不分離,但存儲便宜、延遲低。
ApsaraDB HBase與雲上許多產品進行了很好的打通,其中包括支持:框架
ApsaraDB HBase與開源HBase(EMR HBase或者自建)的區別如圖,雲HBase是全託管,全部運維工做都是阿里雲來作,支持雙活,內核在性能、主備多個方面進行了優化。
與競爭產品對比,咱們的產品更成熟、內核性能高出2~3倍、延遲低且穩定性高。運維
HBase應用場景十分普遍,從存儲類型來看,HBase支持報表類、時序類、日誌類、消息類、推薦類、風控類和軌跡類數據等;從應用行業來講,電子商務、物聯網、聊天軟件、金融、廣告商、新聞、電信等在使用。阿里內部擁有數百個集羣、數百個業務,總計10000+節點、PB+數據、1億+TPS,主要支撐日誌、聊天、監控、訂單、IOT、風控和搜索等業務,阿里、京東、小米、騰訊、網易、360、知乎、中國人壽、電信等都在使用HBase。機器學習
某車聯網企業使用HBase架構如圖所示,數據經過阿里IOT套件通過流計算清洗寫入到HBase,將存儲汽車軌跡數據和傳感器數據進行分析計算。
Rowkey設計是用Sub(Hash(車輛ID),5) + 車輛ID + 時間,每輛車 10s上傳一次,每次1KB。使用GeoHash存放軌跡信息,100萬臺車1年數據存儲3P,讀寫請求達100w+。分佈式
用戶行爲數據是高度非結構化的,數據有不一樣的來源,每種來源結構不同,HBase可以很好支撐各類不一樣結構數據存儲。爬蟲和APP收集到的原始數據信息會用Spark作一些算法訓練,算法結果會回寫到HBase裏面,使用Spark SQL來生成一些報表,會有ECS實時查詢返回結果,數據量達到200T+.
社交消息是feed流模式消息推動,feed流須要根據時間、興趣等維度從數據庫中作查詢,對於系統可用性要求很是高。咱們作了雙集羣保障,SLA要求達到99.99,單集羣讀寫高峯QPS 1000w+,數據量達30T。
金融公司須要保留很長時間的歷史數據且實時查詢,HBase在該場景下有很大優點,ODPS批量加載到HBase中,HBase使用Phoenix實現SQL實時查詢,單表10000億數據,創建了不少二級索引,多個索引字段,數據量達100T。
阿里雲通過多年沉澱積累的HBase數據流大圖如圖,能夠看到,數據源能夠是ECS服務、傳感器等,中間通過消息隊列經過流式計算方式寫入到HBase中,也能夠在ECS上直接寫入,也支持從消息隊列直接寫入HBase。此外,也能夠經過數據同步批量寫入其它數據源的數據。數據出口經過ECS實時讀取分析,也能夠實時索引同步ES等。
衆多客戶信任ApsaraDB HBase,包括大搜車、千尋位置、天虹基金、螞蟻金服、億方雲、南華期貨、白騎士等。
阿里對雲HBase內核進行了數百項優化及功能改進,經歷天貓雙十一歷練,服務阿里集團,數百個集羣、10000+ 機器、QPS 10億,最大集羣2000臺,在集團各個業務有普遍的應用,有2 HBase PMC、3 Committer、數十位內核貢獻者貢獻200+ patch。
HBase性能優化包括更高的QPS,隨機讀最高提高 200%以上、隨機寫提高50%,還有更高的壓縮比,以及更平穩的讀寫延遲。
雲HBase還具有如下特性:
咱們的數據可靠性能夠達到9個9,幾乎不會丟數據,咱們的服務可用性單集羣99.9%、雙集羣99.99%。
ApsaraDB HBase提供了不少保障,包括運維自動化、自動守護服務、在線擴容節點/磁盤、內核在線升級、可用性檢測/容量報警、15分鐘快速交付、指標可視化和專家在線24小時在線服務。
在穩定性運維處理方面,咱們會作熱點檢測並自動遷移、MajorCompaction分階段處理、讀寫分離、大Scan報警、HDFS定時自動均衡、更多的參數在線生效。ApsaraDB HBase 雙活保障可用性,切換時間20S之內。
本文由雲棲志願小組毛鶴整理,編輯百見