1、大數據下的ETL工具是否還使用Kettleweb
kettle 做爲通用的ETL工具,很是成熟,應用也很普遍,這裏主要講一下 目前咱們如何使用kettle的?redis
在進行大數據處理時,ETL也是大數據處理的主要場景之一。 針對大數據下的ETL, 在大數據研究之初,曾經花費很大精力去尋找大數據下比較成熟的ETL工具,可是很少。主要分類以下:sql
大數據下的ETL處理過程和傳統關係型數據庫下的ETL處理過程,個人理解本質仍是同樣的,要說區別 多是大數據下須要ETL處理的數據速度足夠快,這就要求能夠充分利用分佈式的能力,好比利用分佈式的資源進行分佈式的的計算。數據庫
基於使用經驗和產品成熟度,在大數據下咱們針對一些對數據處理速度不是很是之高的場景,咱們仍然使用kettle。 這裏我爲何不說數據量,由於對於一個ETL過程,說數據量是無心義的,好的ETL工具的核心引擎必定是一個相似如今的流式計算數據結構
也就是說數據向水同樣的流動,流動的過程當中作數據處理。也可kettle自己的含義相似。多線程
基於我的的理解,任務kettle的優點主要體如今如下幾點架構
2.運行時框架
3.可擴展性分佈式
4.待完善點工具
目前kettle 的定位:
2.2 數據流處理的核心序列
2.2.1 任務的執行頂層序列
2.2.2步驟的初始化
每一個步驟隊列的分配過程
數據放入隊列
2.2.5 table out put
以上 是kettle 核心數據流處理的核心過程。分享給你們