這裏介紹一個在read_csv()時報錯的緣由爲:(加工字爲位置能夠任意)web
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 0: invalid continuation bytesegmentfault
來吧瞅瞅:網站
代碼:編碼
df_w = pd.read_table( r'C:\Users\lab\Desktop\web_list_n.txt', sep=',', header=None)
當我用pandas的read_table方法讀取本地文件時,爆出這個錯誤:spa
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 0: invalid continuation byte.net
查詢一番,找到了原來這就是Python 編碼中最多見也是最頑固的兩個錯誤:3d
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)code
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 0-1: invalid continuation byteblog
也就是編碼解碼的問題,我這個錯誤就是‘utf-8’不能解碼位置52的那個字節(0xce),也就是這個字節超出了utf-8的表示範圍了,編碼解碼詳細請參見http://www.javashuo.com/article/p-zqrpekmx-cp.htmlutf-8
解決辦法:
df_w = pd.read_table( r'C:\Users\lab\Desktop\web_list_n.txt', encoding='ISO-8859-1', sep=',', header=None)
也就是在讀取數據的時候,顯式添加編碼方式encoding='ISO-8859-1',別的編碼也能夠試試喲
可是:這種方法使用後會發現英文的內容顯示正常,可是文件中的中文會亂碼,因此不行
繼續:
使用了這我的的方法:https://blog.csdn.net/kelindame/article/details/75014485
結論不行!
使用了這我的的方法:https://blog.csdn.net/weixin_37029453/article/details/78917066
仍是結論不行!
====================解決方法==============================
加上這些帶#號的亂七八糟東西就能夠了
#-*- coding : utf-8-*- # coding:unicode_escape import pandas as pd import numpy as np import matplotlib.pyplot as plt io = r'C:\Users\Hou\Downloads\query-hive-191685.csv' idk=r'C:\Users\Hou\Downloads\query-hive-191744.csv' #data=pd.read_csv(io,encoding='unicode_escape') data=pd.read_csv(io,encoding='gbk')
說真的國內網站,唉
看了這我的的文章試了一下,能夠了