KETTLE——初見KETTLE

(PS:這是很早之前在CSDN上發過的,那個帳號不想用了,因此搬過來)數據庫

就在前一段時間,由於公司須要忽然被老大告知要用一個ETL工具,第一次知道這麼個工具,徹底不知道是作什麼的。大概問了一下,說是一種數據轉化工具。這就開始了:工具

1.瞭解什麼是ETL:百度百科ETL學習

2.查找合適的ETL工具:支持Oracle、MySQL、開源,因而我遇到了KETTLE;測試

3.開始瞭解KETTLE,(鏈接爲KETTLE的開源社區網)url

4.下載KETTLE(PS:一樣都是要學習,因此我選擇了目前最新的版本:pdi-ce-6.0.1.0-386,通常新的版本網上的資料可能會比較少,但一般均可以學習參考)spa

5.開始找學習文檔和資料,比較官方的文檔我是沒有找到(若是誰有請發我一份),網上的博客卻是很多大多數是4版本的,雖然有一些轉載的人不對其測試,原創的人寫的不夠詳細固然也有詳細的,但總歸仍是謝謝他們的分享精神讓我對其有了大概的瞭解。(PS:對於那些我就不貼鏈接了,網上鋪天蓋地的博客)。操作系統

 

以上基本全是網上的東西,做爲KETTLE工具新手的我,大概說說個人理解和學習的過程(有誤請諒解):.net

KETTLE,一個抽取+轉換+加載的工具,用JAVA開發,所以運行也須要JAVA的環境。插件

我把這個工具大致上分爲了六塊內容:資源庫、數據抽取、映射轉換、數據寫入、調度、增量處理。日誌

資源庫:主要是KETTLE存儲基本自身文件的地方,如咱們鏈接數據庫、本身寫的轉換等文件。KETTLE自身支持兩種方式的存儲:數據庫資源庫和文件資源庫,還有一種Pentaho資源庫,須要Pentaho的插件。

數據抽取:數據源。

映射轉換:我的以爲是最核心的東西,這部分是處理真實業務的關鍵所在。

數據寫入:輸出源。

調度:大致上有兩種方式,操做系統調度和Pentaho BI Server,網上還有不少的好比WEB調度之類的。

增量處理:主要是四種思路,時間戳方式、快照方式、觸發器方式、日誌方式。

 

以上是我我的對於KETTLE的學習的分法,我也是按照這六塊內容學習的,文言之處還望包含。

相關文章
相關標籤/搜索