Python——報錯 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 52: invalid continua

時間 2019-12-02

標籤 python 報錯 unicodedecodeerror utf codec can't decode byte 0xce xce position invalid continua 欄目 Python 简体版

原文原文鏈接

這裏介紹一個在read_csv()時報錯的緣由爲：（加工字爲位置能夠任意）web

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 0: invalid continuation bytesegmentfault

來吧瞅瞅：網站

代碼：編碼

df_w = pd.read_table(
    r'C:\Users\lab\Desktop\web_list_n.txt', sep=',', header=None)

當我用pandas的read_table方法讀取本地文件時，爆出這個錯誤:spa

　UnicodeDecodeError: 'utf-8' codec can't decode byte 0xce in position 0: invalid continuation byte.net

查詢一番，找到了原來這就是Python 編碼中最多見也是最頑固的兩個錯誤：3d

　　UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)code

　　UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 0-1: invalid continuation byteblog

也就是編碼解碼的問題，我這個錯誤就是‘utf-8’不能解碼位置52的那個字節（0xce），也就是這個字節超出了utf-8的表示範圍了，編碼解碼詳細請參見http://www.javashuo.com/article/p-zqrpekmx-cp.htmlutf-8

解決辦法：

df_w = pd.read_table(
    r'C:\Users\lab\Desktop\web_list_n.txt', encoding='ISO-8859-1', sep=',', header=None)

也就是在讀取數據的時候，顯式添加編碼方式encoding='ISO-8859-1'，別的編碼也能夠試試喲

可是：這種方法使用後會發現英文的內容顯示正常，可是文件中的中文會亂碼，因此不行

繼續：

使用了這我的的方法：https://blog.csdn.net/kelindame/article/details/75014485

結論不行！

使用了這我的的方法：https://blog.csdn.net/weixin_37029453/article/details/78917066

仍是結論不行！

====================解決方法==============================

加上這些帶#號的亂七八糟東西就能夠了

#-*- coding : utf-8-*-
# coding:unicode_escape
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
io = r'C:\Users\Hou\Downloads\query-hive-191685.csv'
idk=r'C:\Users\Hou\Downloads\query-hive-191744.csv'
#data=pd.read_csv(io,encoding='unicode_escape')
data=pd.read_csv(io,encoding='gbk')