kettle-數據源配置化-開發、生產採用不一樣配置

數據etl經常使用工具kettle。linux

 

一、說明:數據庫

kettle-數據源配置化:是指kettle的數據源鏈接信息所有或者部分從配置文件中讀取(若是是數據庫的資源庫,那麼資源庫也能夠配置化)。windows

 

二、優勢:安全

       一、這樣程序自己就和kettle的業務解綁了,開發、生產採用不一樣配置;每次開發完成就能夠直接導入線上,不再用手動去修改鏈接信息(少改少錯,不改就不錯)。分佈式

       二、能夠對開發人員保密線上的鏈接信息,保證數據安全。工具

 

在開發和部署的時候不用再關心線上、開發、測試環境的數據源不同,每次上線須要手動修改的麻煩。 oop

 

 

三、資源庫的方式有2種:測試

                  (1)、文件方式。方便遷移、分佈式環境下須要本身解決文件同步。spa

                  (2)、數據庫方式。會有數據庫鎖的問題。不用維護文件同步問題。集羣部署支持好。blog

                  (3)、讀取配置文件的方式,對上面2中資源庫類型都是支持的,沒有影響。

                          數據庫方式的資源庫中的數據源鏈接信息,也能夠從配置文件讀取(共享的數據源、非共享的數據源均可以)。

 

 

 四、kettle配置文件的位置:

               windows 默認在:C:\Users\用戶\.kettle

               linux 默認在:/root/.kettle/

 

 五、配置文件:

               下圖是kettle的三個核心配置文件。依次是配置信息文件、資源庫配置文件、共享數據源配置文件

 

 

 

 六、咱們在kettle界面上看看具體的配置是怎麼樣的

(1)、資源庫的鏈接信息:從配置文件中讀取

 

 

 (2)、數據源的鏈接信息:從配置文件中讀取

 

 

 (3)、hadoop的鏈接信息:從配置文件中讀取

 

 

 

 

七、下面分別看一下三個文件的內容

(1)、配置信息文件

這裏特別說明:配置好以後,線上、線下只有這個配置文件的內容不同。其餘配置都是同樣的。這樣在開發好以後能夠直接導入線上。連數據源、資源庫的鏈接名都不用改。

 

(2)、資源庫配置文件

 

 

(3)、共享數據源配置文件

若是沒有配置共享數據源,則這個文件是空的,若是有,跟上圖的鏈接信息相似。

相關文章
相關標籤/搜索