spark處理中文亂碼問題！！|��| | �㶫| | �Ϻ�| |��| |��| |��|

時間 2019-12-11

標籤 spark 處理中文亂碼問題欄目 Spark 简体版

原文原文鏈接

既然能看見這篇文章，說明你遇到是亂碼問題，具體問題我們就再也不分析了，直接來看爲何亂碼，如何不讓它亂碼首先我們分析爲何會亂碼，首先由於spark沒有本身讀取文件的方式因此它採用了hadoop的讀取文件的方式，由於日誌的格式是GBK編碼的，而hadoop上的編碼默認是用UTF-8，致使最終輸出亂碼。因此我們應該制定編碼格式是GBK的，下面經過一個案例來表示直接讀取和指定方式讀取的結果差異，以及代碼

>>阅读原文<<