近日,阿里雲正式發佈了雲原生數據湖體系,詳情請參見一文讀懂雲原生數據湖體系,由對象存儲OSS、數據湖構建Data Lake Formation、E-MapReduce產品強強組合,提供存儲與計算分離架構下,湖存儲、湖加速、湖管理、湖計算的企業級數據湖解決方案。web
阿里雲《雲原生數據湖體系白皮書》隨後也正式對外發布。電子書涵蓋了阿里雲對雲原生數據湖的定義、行業內領先的雲原生數據湖技術、雲原生數據湖存儲、雲原生數據湖加速、雲原生數據湖構建、雲原生計算引擎以及雲原生數據湖治理等內容。算法
複製該連接到瀏覽器完成下載或分享:(文末閱讀原文可直達)瀏覽器
目錄安全
其中的雲原生數據湖技術系列專題,將告訴你們如何基於阿里雲 OSS 、JindoFS和數據湖構建(Data Lake Formation,DLF)等基礎服務,結合阿里雲上豐富的計算引擎,打造一個全新雲原生數據湖體系。微信
數據湖存儲 OSS
阿里雲對象存儲 OSS 是數據湖的統一存儲層,它基於12個9的可靠性設計,可存儲任意規模的數據,可對接業務應用、各種計算分析平臺,很是適合企業基於OSS構建數據湖。架構
相對於HDFS來講,OSS能夠存儲海量小文件,而且經過冷熱分層、高密度存儲、高壓縮率算法等先進技術極大下降單位存儲成本。同時OSS對Hadoop生態友好,且無縫對接阿里雲各計算平臺。針對數據分析場景,OSS推出 OSS Select、Shallow Copy和多版本等功能,加速數據處理速度,加強數據一致性能力。app
數據湖加速
對象存儲系統在架構設計上和 HDFS 等分佈式文件系統存在必定差別,同時存儲和計算分離架構中 OSS 是遠端的存儲服務,在大數據計算層面缺乏對數據本地化的支持。編輯器
所以,在 OSS 對象存儲服務的基礎上,阿里雲定製了自研的大數據存儲服務 —— JindoFS,極大的提高數據湖上的引擎分析性能,在TPC-DS、Terasort等常見的benchmark測試中,採用計算存儲分離架構的 JindoFS性能已經達到或超過了本地部署的HDFS。分佈式
同時JindoFS徹底兼容 Hadoop 文件系統接口,給客戶帶來更加靈活、高效的計算存儲方案,目前已驗證支持Hadoop開源生態中最主流的計算服務和引擎:Spark、Flink、Hive、MapReduce、Presto、Impala 等。當前 JindoFS存儲服務包含在阿里雲 EMR 產品中,將來 JindoFS會有更多的產品形態服務於數據湖加速場景。
工具
數據湖構建(DLF)
傳統的數據湖架構很是強調數據的統一存儲,但對數據的Schema管理缺少必要的手段和工具,須要上層分析和計算引擎各自維護元數據,而且對數據的訪問沒有統一的權限管理,沒法知足企業級用戶的需求。
數據湖構建(DLF)服務是阿里雲在2020年9月推出的針對數據湖場景的核心產品,主要爲了解決構建數據湖過程當中用戶對數據資產的管理需求。DLF 對 OSS 中存儲的數據提供統一的元數據視圖和統一的權限管理,並提供實時數據入湖和清洗模板,爲上層的數據分析引擎提供生產級別的元數據服務。
雲原生計算引擎
當前阿里雲上衆多雲原生計算引擎已經接入或準備接入數據湖構建服務,包括阿里雲EMR上的開源計算引擎Spark、Hive、Presto、Flink以及大數據計算服務 MaxCompute、數據洞察 Databricks 引擎和數據湖分析(DLA)等。
以最經常使用的開源引擎 Spark 爲例,阿里雲 Spark 能夠直接對接數據湖構建的元數據服務,運行在多集羣或多平臺上的 Spark 任務共享同一個數據湖元數據視圖。而且 EMR 爲 Spark 推出了Shuffle Service服務,Spark 引擎所以得到雲原平生臺上的彈性擴縮容能力。雲原生計算引擎結合數據湖架構能夠得到更高的靈活度並極大的下降數據分析成本。
另外,雲原生數據倉庫 MaxCompute也準備接入數據湖構建服務,將來數倉和數據湖將會發生什麼樣的化學反應呢?敬請期待。
數據湖治理
DataWorks數據綜合治理可爲阿里雲客戶提供統一的數據視圖,用於掌握數據資產的現狀、助力數據質量的提高、提升獲取數據的效率、保障數據安全的合規並提高數據查詢的分析效率。能夠有效支撐離線大數據倉庫的構建、數據聯邦的查詢和分析處理、海量數據的低頻交互式查詢和智能報表的構建,以及數據湖方案的實現。
綜上所述,利用阿里雲的基礎組件和總體解決方案,用戶能夠方便的構建一個數據湖平臺,完成企業大數據架構轉型。
更多數據湖相關解決方案討論,請加入產品釘釘羣
福利指路:
進入釘釘羣后,在羣內提出對本冊電子書內容的相關問題和建議,前20名送社區小禮物。請私信羣管理員 天宇 收件信息和T恤尺碼哦
數據湖構建公測進行時,官網地址:
https://www.aliyun.com/product/bigdata/dlf
電子書下載連接,請點擊「閱讀原文」直達👇
本文分享自微信公衆號 - Delta Lake技術圈(deltalake-emr2020)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。