kettle 開源etl數據抽取工具

1.爲何要使用數據抽取

(1)爲了避免妨礙業務數據的讀取和寫入,須要進行數據的抽取,抽取到另外數據庫表進行讀取
(2)對某些總計數據能夠進行預先計算, 抽取到另外數據庫表
(3)隨訪業務數據庫爲mongodb , 統計程序編程效率低,須要轉成sql 類數據庫提升效率javascript

2.工具

使用 kettle 開源etl工具
網址:http://community.pentaho.com/projects/data-integration/java

3.使用方法

整體來說,就是這麼個步驟:
選擇數據輸入——中間數據處理——最後數據輸出sql

好比從mongodb 同步到 sqlserver過程以下:mongodb

(1)選擇核心對象中的bigdata MongoDB Input (數據輸入)

clipboard.png

(2)進行數據處理 (這裏篩選了須要抽取的字段)

clipboard.png

(3)選擇插入更新輸出

clipboard.png

4.總結

數據輸入的形式不少,各類形式的數據均可以作爲一手數據源, kettle 數據轉換的功能也很強大, 還能夠進行 java ,javascript 等腳本的編寫來進行高級的數據處理, 最後獲得須要的數據。
相比其餘開源的etl工具和其餘商業的etl工具,對比下來 kettle仍是比較強大和好用。數據庫

相關文章
相關標籤/搜索