pyspark讀取包含中文的文件，打印結果中文顯示不正常

時間 2021-01-04

原文原文鏈接

今天使用pyspark讀取一份包含中文的文件時，通過take操作出來的結果中文顯示不正常，如下圖所示通過查詢，發現此時pyspark的環境編碼是ascii碼，而Linux系統編碼是utf-8 重新設置pyspark的環境編碼測試發現可以能否正常打印中文字符串，但是打印data.take(2)又不行，這是因爲data.take(2)得到的是一個列表。此時可以用下面的命令進行打印

>>阅读原文<<