spark處理中文亂碼問題!!|����| | �㶫| | �Ϻ�| |����| |����| |����|

既然能看見這篇文章,說明你遇到是亂碼問題,具體問題我們就再也不分析了,直接來看爲何亂碼,如何不讓它亂碼 首先我們分析爲何會亂碼,首先由於spark沒有本身讀取文件的方式因此它採用了hadoop的讀取文件的方式,由於日誌的格式是GBK編碼的,而hadoop上的編碼默認是用UTF-8,致使最終輸出亂碼。因此我們應該制定編碼格式是GBK的,下面經過一個案例來表示直接讀取和指定方式讀取的結果差異,以及代碼
相關文章
相關標籤/搜索