DataLake with Hadoop Ecosystem

   Hadoop是實現數據湖最常用的技術手段,目前是最理想的選擇,Hadoop生態系統提供批處理、實時處理引擎,還提供海量數據存儲能力,數據處理架構如下圖: 目前常見的兩種使用方式: 1) 第一種方式是將Hadoop作爲ETL工具,並且數據備份或者冷數據存儲其PB級別數據,在Hadoop中數據冗餘而且較容易恢復,如下圖所示: MapReduce及Spark Engine可以用來處理非結構化數據,
相關文章
相關標籤/搜索