對於數據去重的處理-PDI導入前及數據庫端的雙重設定

數據重複是一個比較麻煩的問題,影響數據質量,這個問題困擾了我好一陣子,研究後,用以下方法解決。 首先是PDI導入前,在寫入數據庫之前增加一步Sort Rows來過濾數據,如果發現有重複的則只導入一條記錄,用序列號和時間戳來檢驗數據唯一性,總體步驟如下: 數據庫端的話,採用類似的方法,用indexs的方法,鎖定序列號+時間戳爲唯一值,這樣如果有重複的話,數據也無法導入而報錯,設置方法如下:
相關文章
相關標籤/搜索