pandas讀取csv文件中文亂碼問題

一、爲何會出現亂碼問題,用什麼方式編碼就用什麼方式解碼,因爲csv不是用的utf-8編碼,故不能用它解碼。python

經常使用的編碼方式有 utf-8,ISO-8859-一、GB18030等。編碼

 

二、中文亂碼緣由:spa

通常的csv文件若是使用 code

data = pd.read_csv("data__361_46.csv", encoding='utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb3 in position 0: invalid start byte

若此時改成blog

data = pd.read_csv('sample.csv', encoding='ISO-8859-1')

此時再也不報錯,可是中文字符解析異常,出現下列錯誤:utf-8

 

 三、有兩種解決辦法:it

(1)用記事本打開csv文件,另存爲,編碼格式改成utf-8而後用utf-8讀取文件。io

(2)用 csv編碼的 「GB18030」 解碼方式讀取文件。class

另外,因爲python不支持中文,故通常在全部python代碼開頭第一行加上#coding=utf-8 亂碼

相關文章
相關標籤/搜索