隨着數據與日俱增,業務驅動下的數據分析靈活性要求愈來愈高,不一樣場景的數據分業務系統而構建,致使冗餘嚴重,缺少高效、統一的融合數倉,阻礙企業快速轉型。git
企業典型的訴求總結以下:github
第一,數據統一存儲:爲了節約成本,企業但願一份數據支持多種使用場景;減小數據孤島和冗餘,經過數據共享產生更大價值。數據庫
第二,高效:數據分析要求愈來愈高效、實時。apache
第三,易集成:提供標準接口,新的大數據方案與企業已採購的工具和IT系統要能無縫集成,支撐老業務快速遷移。微信
第四,大集羣:區別於以往的單機系統,企業客戶但願新的大數據方案能應對日益增多的數據,隨時能夠經過增長資源的方式橫向擴展,無極擴容。架構
第五,開放生態:經過開源開放,讓更多的客戶和合做夥伴的數據鏈接在一塊兒,發揮更大的價值。框架
華爲針對上述典型訴求,從2013年開始調研分析業界大數據方案,發現每種技術都只能解決某種場景的訴求,不能同時知足上述的全部訴求,如:並行數據庫技術不能有效與Hadoop生態集成,數據不能統一共享存儲;搜索類技術提高了性能,可是數據膨脹很大,不支持標準SQL、不能兼容老的業務,這促使了華爲着手開發CarbonData項目。整個大數據時代的開啓,能夠說是源自於Google的MapReduce論文,他引起了Hadoop開源項目以及後續一系列的生態發展。他的「偉大」之處在於計算和存儲解耦的架構,使企業的部分業務(主要是批處理)從傳統的垂直方案中解放出來,計算和存儲能夠按需擴展極大提高了業務發展的敏捷性,讓衆多企業普及了這一計算模式,從中受益。CarbonData借鑑了這一理念,存儲和計算邏輯上分離,經過索引技術讓存儲和計算物理上更接近,提高CPU和IO效率,實現超高性能的大數據分析:工具
- 列式存儲:高效的列式數據組織,區別於行存,能夠實現列裁剪和過濾下壓,使OLAP查詢性能更高。同時,CarbonData針對明細數據查詢實現了深度優化,在須要返回全部列的場景下性能優於其餘列存方案。
- 豐富的索引支持:支持全局多維索引、文件索引、Min/Max、倒排索引等多種索引技術,從表級,文件級,列級等多個層級逐級快速定位數據,避免SQL-on-Hadoop引擎常見的「暴力掃描「,從而大幅提高性能,實現十年數據秒級響應, 三百維字段任意組合查詢。
- 全局字典編碼:除了常見的Delta、RLE、BitPacking等編碼外,CarbonData應用了全局字典編碼來實現免解碼的計算,計算框架能夠直接使用通過編碼的數據來作聚合,排序等計算,這對須要作跨節點數據交換的業務來講性能提高很是明顯(3倍以上)。
- 自適應類型轉換:CarbonData針對分析型應用中大量使用的數值類型(Double/Decimal/Numeric/BigInt)實現存儲內數據類型轉換,配合列式數據壓縮,使得壓縮很是高效,數據壓縮率基於應用場景不一樣通常壓縮比在2到8之間。
- 標準SQL和API:在SparkSQL基礎上,支持標準SQL99/2003;支持數據批量更新、刪除,適用於OLAP場景下數據的週期性刷新,例如拉鍊表更新、維表數據同步。提供JDBC/ODBC鏈接,支持與BI工具無縫對接;兼容Spark DataFrame/DataSet,支持複雜分析應用。
- 數據生態集成:支持與Hadoop、Spark等大數據生態系統集成,支持和商業BI工具無縫對接。既知足傳統數倉、數據集市、BI應用要求,也提供大數據生態豐富多樣的API支持,覆蓋從GB級到EB級應用。
- 開源開放: CarbonData於2016年6月3日全票經過進入大數據領域全球最大的開源社區Apache,半年時間裏,Apache社區代碼貢獻者超過60人。目前特性貢獻來自於華爲、Intel、Talend、Ebay、Inmobi、Knoldus、阿里、美團、樂視、滴滴等公司資深架構師和開發人員。
Apache CarbonData致力於推進大數據開源技術的持續發展,以一份數據同時知足多種業務場景訴求,打造高效、開放、完整生態的大數據新融合數倉。歡迎你們參與到社區建設:oop
- 目前已經發布了三個Apache穩定本:http://mirrors.cnnic.cn/apache/incubator/carbondata/
- Code: https://github.com/apache/incubator-carbondata or https://git.oschina.net/CarbonData/ApacheCarbonData
- JIRA: https://issues.apache.org/jira/browse/CARBONDATA
- Mailinglist: dev@carbondata.incubator.apache.org
- Cwiki: https://cwiki.apache.org/confluence/display/CARBONDATA/CarbonData+Home
- 主頁(完善中): http://carbondata.apache.org
可關注CarbonData微信公衆號:ApacheCarbonData,及時得到最新進展信息。性能