我理解的數倉項目

我理解的數倉項目 我會從數據的流向來梳理整個架構. 離線數倉:(對產生的數據進行處理,一般處理T+1數據.) 訂單數據保存在mysql數據庫中,通過kettle進行ETL (進行數據的抽取,基本的預處理 轉換裝載到HDFS中) 這裏用到hive數據倉庫工具,hive 數據保證在hdfs中,運用hsql對數據進行操作, 底層進行mapreduce. 對數倉進行分層. ods 層 預處理後的數據 dw
相關文章
相關標籤/搜索