數據倉庫ETL

這邊用etl作數據相關工做。etl包括三個部分:ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數據歷來源端通過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。ETL一詞較經常使用在數據倉庫,但其對象並不限於數據倉庫。架構

ETL三個部分中,花費時間最長的是「T」(Transform,清洗、轉換)的部分,通常狀況下這部分工做量是整個ETL的2/3。數據的加載通常在數據清洗完了以後直接寫入DW(Data Warehousing,數據倉庫)中去。工具

分開來說,Extract其實最困難,Transform最麻煩,Load最容易。oop

經常使用的技術架構中,e能夠說kafka,t:hadoop mapreduce,spark;l:hive作存儲,es,solr作索引。總體集成工具備:Kettlespa

相關文章
相關標籤/搜索