對於數據去重的處理-PDI導入前及數據庫端的雙重設定

時間 2021-01-17

原文原文鏈接

數據重複是一個比較麻煩的問題，影響數據質量，這個問題困擾了我好一陣子，研究後，用以下方法解決。首先是PDI導入前，在寫入數據庫之前增加一步Sort Rows來過濾數據，如果發現有重複的則只導入一條記錄，用序列號和時間戳來檢驗數據唯一性，總體步驟如下：數據庫端的話，採用類似的方法，用indexs的方法，鎖定序列號+時間戳爲唯一值，這樣如果有重複的話，數據也無法導入而報錯，設置方法如下：

>>阅读原文<<