摘要: MaxCompute(原ODPS)是一項大數據計算服務,它能提供快速、徹底託管的PB級數據倉庫解決方案,使您能夠經濟並高效的分析處理海量數據。算法
數據是開啓全新洞察和機器智能創新的基礎,擁有高性能、穩定、可擴展性強的存儲能力和充沛的計算力,才能全面釋放數據價值。架構
阿里巴巴大數據計算平臺MaxCompute,做爲阿里巴巴統一的計算平臺,支持了整個阿里巴巴集團內部幾乎99%的數據存儲,數據規模已至EB級。同時,MaxCompute也在爲數以萬計的雲上用戶提供快速、徹底託管的 GB到EB 級數據倉庫解決方案,解決用戶海量數據存儲與計算問題。因此說,如何提升數據存儲效率、穩定性、可用性,是MaxCompute存儲團隊不斷努力的方向。分佈式
從MaxCompute總體存儲架構來看,存儲層處於MaxCompute Tasks和底層盤古分佈式文件系統之間,提供統一的邏輯數據模型給各類各樣的計算任務(包括SQL,XLib,Graph,PAI等),以保證數據在不一樣類型的Task之間能夠互聯互通,同時存儲引擎提供邏輯數據模型到DFS的映射、數據編碼壓縮和文件存儲格式、冷熱數據分離與文件合併歸檔等方面的服務。性能
在本次存儲升級中,MaxCompute利用新一代數據壓縮算法提供更高壓縮率,而且在不一樣數據集中都有極佳性能,持續提高MaxCompute存儲和計算能力,帶來存儲費用的降低和計算性能的提高。測試
新壓縮算法在10TB TPC-DS測試集下,壓縮節省8.38%, 計算節省4.35%。大數據
從資源成本角度看,新壓縮算法比原有算法快5.3%。編碼
MaxCompute做爲阿里巴巴的「水電煤」,數據規模巨大,數據的壓縮率和壓縮速度對整個平臺的性能和成本都有着巨大的意義。MaxCompute存儲團隊採用新一代的壓縮算法做爲底層壓縮的替代方案,爲大規模數據存儲和數據計算帶來了巨大收益。加密
總體存儲變化趨勢spa
存儲帳單變化blog
經實踐,在業務增加量不變的狀況下,升級新一代數據壓縮算法後,在阿里巴巴集團內部每一年可節省存儲費用可一個億。
對於業務跑在MaxCompute上的公共雲客戶而言,本次存儲升級無疑是阿里巴巴技術紅利的又一次釋放,爲企業和開發者們提供具有更高存儲效率、穩定性以及可用性的存儲服務,下降存儲成本的同時進一步提高計算性能。
一次升級,集團內外,每一年節省不止一個億。
接下來,MaxCompute會持續在存儲加密、冷熱數據分離與文件合併歸檔、文件格式支持AliOrc以及存儲和計算的結合方面持續發力,用先進的技術不斷打磨產品,爲雲上企業釋放更多技術紅利,幫助企業和開發者抓住更多市場機遇。