hadoop節點字符編碼導致的reduce重複記錄問題排查

1、背景 組內一個同學反饋:reduce輸出目錄中竟然出現了2條重複的key,理論上同一個key只會有一條記錄。程序是通過mr跑的,代碼如下: mapreduce的邏輯很簡單,其實就是實現一個去重。原因是我們的上游日誌裏經常會有重複記錄。爲了保證結果正確,需要將重複記錄去掉。 該同學反饋的這個case中,輸入文件中有2條重複記錄,且在2個不同文件中。 2、問題排查 2.1 判斷是不是不可見字符 首
相關文章
相關標籤/搜索