阿里5位嘉賓3個分享:HBaseCon Asia 2017乾貨滿滿

HBaseCon是Apache   HBase官方舉辦的技術會議,主要目的是分享,交流HBase這個開源分佈式大數據存儲的使用和開發以及發展。HBaseCon發起於2012年。一般HBaseCon的舉辦地是在美國,這是HBaseCon第一次在亞洲舉行,命名爲Apache  HBaseCon 2017   Asia。並且此次會議舉辦地選擇在中國深圳,也足以見得HBase在中國的火爆程度和中國開發者們對HBase社區所作的卓越貢獻。數據庫

Apache HBase是基於Apache   Hadoop構建的一個分佈式、可伸縮的Key-Value數據庫,它提供了大數據背景下的高性能的隨機讀寫能力。作爲最先研究、使用和二次開發HBase技術的中國公司,阿里巴巴從2010年就開始使用HBase,通過近7年的發展,如今採用HBase存儲的業務已經超過1000+,擁有了上萬臺的HBase集羣規模,在HBase上存儲的數據已達PB級。秉承開源和分享的精神,阿里把HBase的實踐經驗和改進不斷回饋HBase社區,好比說Bucket   Cache和Reverse   Scan等功能,給HBase技術發展帶來了很是深遠的影響。同時,也給HBase社區培養了2名PMC和2名Committer,阿里在HBase社區的影響力可見一斑。那麼此次HBaseCon   2017 Asia。阿里派出了一位HBase PMC和2位Committer,還有兩位資深的HBase開發,給你們帶來了十足的乾貨。性能優化

阿里乾貨系列網絡

1、強同步複製session

傳統的HBase主備集羣同步使用的方案是異步複製,這使得主備集羣數據之間會有短暫的數據不一樣步現象。用戶爲了災備,不得不放棄強一致模型。無法放棄強一致語義的用戶,必須本身寫一套複雜的邏輯來保證主備集羣之間數據的讀寫一致性。阿里的HBase技術專家天引,在這次的HBaseCon   Asia上給你們帶來了強同步複製方案。併發

據天引介紹,強同步複製方案採用了主備併發寫和RemoteLog技術,使得在同城網絡條件下同步複製相對於異步複製僅有2%的吞吐量降低。當一個請求到達主庫後,併發寫本地和備庫,到達備庫的同步寫不須要走完整的寫入路徑,而是直接寫入RemoteLog,下降同步寫開銷與延時。除了同步鏈路外,還有一套異步鏈路將數據從主庫複製到備庫,所以正常狀況下不須要回放RemoteLog的數據到備庫,在主庫不可服務的狀況下,只須要回放RemoteLog中那些尚未被異步複製鏈路同步到備庫的數據,異步複製只有幾秒鐘的數據延遲,這保證了能夠在很短的時間內完成從主庫到備庫的切換。運維

此方案在大會現場引發了強烈反響,不少HBase用戶表示這是他們期待已久的功能,但願能儘快使用上。天引表示此功能目前基於阿里內部分支實現、運行及完善,將來將會回饋給社區。異步

2、SQL on HBase分佈式

阿里HBase服務了大量的內部用戶,並持續有新用戶接入。可是使用HBase的用戶有很大一部分是從傳統的SQL數據庫轉過來的,HBase的rowkey設計和API的使用習慣對於他們來講並不友好。爲了下降這些轉型用戶的使用門檻,阿里在HBase上引入了SQL層。來自阿里的資深HBase開發工程師天穆,給你們詳細講解了如何玩轉SQL   on HBase。ide

經過優化,如今在阿里使用SQL訪問HBase和原生API的速度已經相差無幾,並且在SQL語法上,創造性地支持HBase多版本和時間戳等NoSQL才具備的功能。工具

另外,在HBase上同時支持了全局二級索引和本地二級索引。使用戶能夠在多列上創建索引,簡化了業務的設計,提高了請求效率,下降了使用成本。

3、跨集羣分區拷貝

HBase上一般承載着海量的數據,而在平常生產過程當中,隨着業務的發展和公司數據中心的規劃等緣由,這些海量數據須要常常搬遷,這一般對於運維來講是一個很是頭疼的問題。來自阿里的HBase社區Committer正研,分享了阿里跨集羣分區拷貝的場景和成熟解決方案。

正研首先介紹了在阿里內部常見的須要數據拷貝的場景,好比說新建數據中心,HBase集羣須要總體搬遷到新的機房;又好比說不一樣機房內的HBase集羣的增量數據同步,能夠用replication來解決,可是對於存量數據,目前尚未比較高效的方案;另外還一個常見場景就是數據恢復,而傳統的HBase備份還原工具都無法控制數據恢復的範圍。

所以,阿里研發了Range Data  Copy功能內置在HBase中,提供了一個簡單高效,並且可以自動處理各類錯誤狀況和災難恢復的數據拷貝功能,使用這個功能拷貝一張200TB的表到另一個集羣,所需時間不到5小時。

4、讀寫鏈路優化

在阿里使用HBase的過程當中,對HBase自己作了很是多的讀寫性能優化。來自阿里的HBase社區PMC絕頂和Committer天照,一塊兒給你們分享了阿里在這方面所取得的一些成果。

一、使用Netty替代HBase原生的RPC server,大大提高了HBaseRPC的吞吐能力,下降了延遲 ;

二、 引入新的HFileBlock編碼格式,把順序搜索變成了二分查找,提升了HBase隨機讀的能力

 

三、拆分寫鏈路,釋放阻塞的handler資源,提升了HBase寫的吞吐能力 ;

來自阿里的這些優化黑科技,使HBase的能力又更上一個新臺階。而且這些優化和功能目前已經回饋給了社區,全部的HBase用戶都能在新版本的使用得到這些技術紅利。

總結

除了阿里帶來的技術分享,現場許多其餘公司也都帶來了他們對HBase作出的改進和使用經驗。好比說小米實現了AsyncClient,填補了HBase沒有原生異步API的缺口;知乎使用kubernetes自動擴容縮容HBase集羣,靈活地適應業務高速發展和瞬息萬變;烽火網絡隔離讀寫資源使近線查詢更加穩定等等。

除了上述提到的這幾個亮點技術分享,這次HBaseCon大會的每個session都很是精彩,給你們帶來了一場又一場思惟碰撞的盛宴。Apache  HBase「掌門人」Michael Stack也參加了這次會議,並與HBase開發者們舉行了一次圓桌會議,共同探討HBase的現狀和將來。

此次HBaseCon的火爆程度,直接展現了國內企業和開發者們對HBase熱情和指望。HBaseCon大會不只給HBase的使用者們帶來了最新鮮的技術進展,互通有無,吸取其餘公司的先進經驗;也成爲HBase使用者和開發者之間溝通的橋樑,能讓開發者們看到業界動態,用戶的需求,共同把HBase打形成一個更加易用,更高性能,更穩定的大數據存儲。此次HBaseCon大會是一個很好的開端,指望HBaseCon   Asia越辦越好,給你們帶來更多的乾貨!

最後

若是你對大數據在線存儲、對HBase感興趣,或者是想更好地使用HBase、開發更NB的產品,歡迎聯繫咱們(正研,zhengyan.ywl@alibaba-inc.com),一塊兒交流,互相學習!

相關文章
相關標籤/搜索