pyspider爬網頁出現中文亂碼的解決辦法

時間 2019-11-10

標籤 pyspider 爬網出現中文亂碼解決辦法简体版

原文原文鏈接

爲何會出現亂碼呢？按照binux的說法python

這就是 lxml 的蛋疼之處，給它 unicode 它有的時候它不認，給它 bytes 它又處理很差編碼

方法1：code

response.content = (response.content).decode('utf-8') #目標站是 utf-8 編碼

方法2：xml

response.content = response.content.decode('gbk', errors='ignore')#目標站是gbk

方法3：（binux的方案）blog

import pyquery
doc = pyquery.PyQuery(response.text)

方案3的好處是，沒必要知道源站編碼，而直接由pyquery來接管。utf-8

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。