最近因爲項目的須要,初步涉及到了Kettle的使用,如今將這兩週本身使用kettle開發JOB的心得整理一下,與你們一塊兒分享。sql
1、kettle是什麼數據庫
Kettle是個ETL工具,主要用來管理不一樣數據來源的數據,按照必定的方式流出來,最經常使用的狀況,不一樣系統之間數據的傳遞,可使用kettle製做轉換JOB來完成。目前因爲是純JAVA語言編寫,因此與Java兼容性最好。windows
Kettle主要包括四個部分:Spoon、Pan、Kitchen以及CHEF;本次總結主要涉及到Spoon和Kitchen,這兩個運用比較普遍。其中:Spoon是核心的圖形化處理界面,經過拖拽組件,配置組件來完成一系列數據流的轉換,Kitchen目前主要是製做bat文件來批處理一些列的JOB,好比說windows系統下的定時任務。工具
2、Kettle的兩種腳本文件測試
一、transformation:完成針對數據的基礎轉換。orm
二、job:完成對整個工做流的控制。blog
3、資源庫的配置(基於4.4.0版本)資源
資源庫主要做用是用來存放在kettle工具上編寫的轉換和job的。開發
資源庫主要分爲兩種:get
Kettle database repository
Kettle file reposity
一個是數據資源庫:將編寫的轉換和job存放在數據資源庫中的對應的表裏面,這些表在你配置好數據庫資源庫時會出現一個執行建立表的sql語句,執行這些sql語句就會完成表的建立。大部分都是建立數據資源庫的
另外一個是文件資源庫:將編寫的轉換和job存放在文件裏面,運用不是很普遍。
下面主要講解一下MySQL的資源數據庫的配置(Oracle配置比較簡單,配置的步驟大致相同,並且MySQL這裏,對應的資源庫表建立有點BUG)
一、點擊如圖按鈕,進入資源庫配置界面
二、選擇第一個數據庫資源配置,點擊肯定,在出現的界面中選擇新建資源數據庫
三、配置數據庫以下:其中kettle自己自帶是沒有數據的驅動jar包的, 因此須要手動將jar放置在kettle安裝文件的的目錄下(D:\Tools\Kettle\data-integration\lib),最後點擊Test來測試是否鏈接成功。
四、若是數據庫鏈接成功的話,直接點擊OK鍵,進行數據庫資源表的建立。
五、這裏點擊建立或者更新,會出現一個彈跳框,框子裏面是建立表的sql語句,這裏咱們不執行,將這些sql語句粘貼複製到數據庫處理工具上,直接在數據庫中運行(MySQL的建立表的語句在kettle上使用會先報錯的,而在數據庫中直接運行則不會,另外目前就發現MySQL有這種狀況,Oracle則沒有)
六、登錄資源數據庫,默認的用戶名和密碼是admin和admin
七、至此資源數據庫的配置完成。