kettle 合併記錄

轉自: http://blog.itpub.net/post/37422/464323ide

 

看到別人的腳本用到 合併記錄 步驟,學下下。post

該步驟用於將兩個不一樣來源的數據合併,這兩個來源的數據分別爲舊數據和新數據,該步驟將舊數據和新數據按照指定的關鍵字匹配、比較、合併。spa

須要設置的參數:.net

[@more@]blog

舊數據來源:舊數據來源的步驟排序

新數據來源。新數據來源的步驟it

標誌字段:設置標誌字段的名稱,標誌字段用於保存比較的結果,比較結果有下列幾種。數據

1. 「identical」 – 舊數據和新數據同樣腳本

2. 「changed」 – 數據發生了變化;let

3. 「new」 – 新數據中有而舊數據中沒有的記錄

4. 「deleted」 –舊數據中有而新數據中沒有的記錄

關鍵字段:用於定位兩個數據源中的同一條記錄。

數據字段:對於兩個數據源中的同一條記錄中,指定須要比較的字段。

合併後的數據將包括舊數據來源和新數據來源裏的全部數據,對於變化的數據,使用新數據代替舊數據,同時在結果裏用一個標示字段,來指定新舊數據的比較結果。

注意:

舊數據和新數據須要事先按照關鍵字段排序。

舊數據和新數據要有相同的字段名稱。

例子:

舊數據:

field1, field2

1, 1

2, 2

3, 3

4, 4


新數據

field1, field2

1, 1

2, 9

5, 5


設置:標誌字段是flag,關鍵字段是 field1, 比較字段是field2


合併後的數據

field1; field2; flag

1; 1; identical

2; 9; changed

3; 3; deleted

4; 4; deleted

5; 5; new

相關文章
相關標籤/搜索