數據etl經常使用工具kettle。linux
一、說明:數據庫
kettle-數據源配置化:是指kettle的數據源鏈接信息所有或者部分從配置文件中讀取(若是是數據庫的資源庫,那麼資源庫也能夠配置化)。windows
二、優勢:安全
一、這樣程序自己就和kettle的業務解綁了,開發、生產採用不一樣配置;每次開發完成就能夠直接導入線上,不再用手動去修改鏈接信息(少改少錯,不改就不錯)。分佈式
二、能夠對開發人員保密線上的鏈接信息,保證數據安全。工具
在開發和部署的時候不用再關心線上、開發、測試環境的數據源不同,每次上線須要手動修改的麻煩。 oop
三、資源庫的方式有2種:測試
(1)、文件方式。方便遷移、分佈式環境下須要本身解決文件同步。spa
(2)、數據庫方式。會有數據庫鎖的問題。不用維護文件同步問題。集羣部署支持好。blog
(3)、讀取配置文件的方式,對上面2中資源庫類型都是支持的,沒有影響。
數據庫方式的資源庫中的數據源鏈接信息,也能夠從配置文件讀取(共享的數據源、非共享的數據源均可以)。
四、kettle配置文件的位置:
windows 默認在:C:\Users\用戶\.kettle
linux 默認在:/root/.kettle/
五、配置文件:
下圖是kettle的三個核心配置文件。依次是配置信息文件、資源庫配置文件、共享數據源配置文件
六、咱們在kettle界面上看看具體的配置是怎麼樣的
(1)、資源庫的鏈接信息:從配置文件中讀取
(2)、數據源的鏈接信息:從配置文件中讀取
(3)、hadoop的鏈接信息:從配置文件中讀取
七、下面分別看一下三個文件的內容
(1)、配置信息文件
這裏特別說明:配置好以後,線上、線下只有這個配置文件的內容不同。其餘配置都是同樣的。這樣在開發好以後能夠直接導入線上。連數據源、資源庫的鏈接名都不用改。
(2)、資源庫配置文件
(3)、共享數據源配置文件
若是沒有配置共享數據源,則這個文件是空的,若是有,跟上圖的鏈接信息相似。