應運而生! 雙11當天處理數據5PB—HiStore助力打造全球最大列存儲數據庫

阿里巴巴電商業務中歷史數據存儲與查詢相關業務, 大量採用基於列存儲技術的HiStore數據庫,雙11當天HiStore引擎處理數據記錄超過6萬億條、原始存儲數據量超過5PB。從單日數據處理量上看,該系統已成爲全球最大列存儲數據庫。算法

 

「歷史數據查詢和分析,數據倉庫和數據挖掘類系統,都是典型的查詢密集型業務,隨着數據驅動模式在業務中的大量使用,這樣的需求會愈來愈多。」HiStore項目負責人葉建林表示,「剛剛過去的雙11全民購物狂歡節,包括天貓、淘寶和菜鳥網絡在內的阿里巴巴核心業務平臺,產生了大量的商品、用戶及物流數據,這些海量數據查詢和分析的主要特色是:數據實時插入和更新少;多維查詢和併發查詢量大。」數據庫

 

面對這樣的應用場景,傳統的行存儲數據庫產品一直不能很好地解決數據量大,多維查詢性能低等問題,阿里巴巴自研分佈式低成本分析型數據庫HiStore憑藉高性價比、高壓縮比、數據處理量大,以及獨特的列存儲技術特色,爲對海量歷史數據存儲和查詢有強烈需求的客戶提供了功能完備的技術解決方案。安全

 

依託阿里中間件(Aliware),面對世界級挑戰網絡

「做爲一款面向分析型應用領域的數據庫產品,HiStore架構設計充分知足了海量數據查詢和分析需求,以列爲基本存儲方式和數據運算對象,結合列數據壓縮處理、並行處理、Snapshot併發控制、智能索引等數據處理技術,在成本、查詢、統計、分析以及批量加載性能上具有突出的優點。」葉建林介紹,HiStore的研發依託於阿里中間件(Aliware)團隊,該團隊面對全球規模最大的阿里電商平臺所帶來的巨大流量和海量數據,以及電商平臺固有的穩定性要求,去處理各類複雜業務場景,迎接世界級的技術挑戰。架構

 

OLAP場景HiStore性能突出併發

據瞭解,目前市場上列存儲數據庫產品也有很多,諸如SAP HANA、HP Vertica、Teradata DB等商業產品,還有InfiniDB,MonetDB、ClickHouse等開源項目。葉建林表示,HiStore雖是後來者,但產品功能十分豐富,支持高性能多維查詢,多核併發查詢,DML支持,alter table,臨時表支持,實例高可用,異構數據源導入,高速數據Load,壓縮算法和MVCC等多項特性。相比傳統的事務型關係數據庫,HiStore在OLAP場景下具備無可比擬的優點:分佈式

一、  大幅下降硬件成本:依靠列存儲和透明壓縮技術,能有效對數據進行壓縮; 常規場景下平均壓縮比>10:1,遠高於常規壓縮算法,部分場景壓縮比甚至可達40:1,極大地節省了數據存儲空間;高併發

二、  存儲數據量大:依靠高速數據加載工具(2TB/小時)和高壓縮比(>10:1)數據處理技術,可實現TB級數據大小,百億條記錄的存儲解決方案;工具

三、  支持高併發和實時多維度查詢:好比支持任意列組合的多維ad-hoc查詢,實現海量數據下秒級檢索能力;性能

四、  符合MySQL技術生態的標準,徹底兼容MySQL語法和通信協議,無縫支持絕大部分MySQL生態圈的工具和應用;

五、  線性擴展:結合TDDL/DRDS,可實現存儲容量和處理能力的線性提高;

六、  在海量歷史數據存儲與查詢等業務場景下, 和業界競品相比,HiStore的查詢性能和存儲性價比優點明顯:億級別數據場景下,查詢性能至關的狀況下存儲成本僅爲infinidb的1/3,單機數據加載速度是infinidb兩倍。

高壓縮比+列存儲,鷹眼系統硬件成本下降90%

做爲列存儲數據庫,高效的壓縮算法是其下降總體成本的利器,葉建林表示,阿里內部最重要的歷史數據存儲和查詢系統-- EagleEye(鷹眼),以前日處理記錄數萬億條,日產生數據數百TB,採用HiStore後,利用其高速寫入和高壓縮比能力,集羣機器規模縮減90%,壓縮比例達到20:1,成本獲得大幅削減。此外,集團安所有風險控制中心的數據存儲,採用HiStore後平均壓縮比10:1,並可提供毫秒級多維度聚合分析查詢。

 

實時多維查詢,人社上雲查詢性能優秀

支持實時多維度查詢是HiStore的另外一個重要優點。從2016年2月起,人社部信息中心組織核心廠商共同研發人社部LEAF6雲應用平臺。據葉建林介紹,在阿里雲提供的人社上雲測試方案中,HiStore協助完成上雲以後幾百個數據分庫的創建、數據導入,數據同步等各類複雜配置及性能調優(分庫分表、小表廣播、異構索引等)。在5000萬社保人口,大概800億條記錄,單表記錄330億條的數據背景下,測試查詢以在線分組統計,多表join爲主,HiStore性能表現優秀。

 

針對不斷增加的海量數據存儲和查詢需求及更苛刻的業務場景,做爲阿里中間件(Aliware)其中一員的HiStore也面臨諸多挑戰,將來將持續深挖高性能,高性價比,高可用的三高優點,依託阿里集團內外普遍的業務場景不斷打磨提高產品質量; 同時產品服務化體系也會不斷完善,推出人性化管控平臺,打造企業級互聯網產品。

相關文章
相關標籤/搜索