python開源項目Scrapy抓取文件亂碼解決

時間 2019-11-11

標籤 python 開源項目 scrapy 抓取文件亂碼解決欄目 Python 简体版

原文原文鏈接

scrapy進行頁面抓去的時候，保存的文件出現亂碼，通過分析是編碼的緣由，只須要把編碼轉換爲utf-8便可，代碼片斷html

......

import chardet

......

content_type = chardet.detect(html_content)

#print(content_type['encoding'])

if content_type['encoding'] != "UTF-8":

html_content = html_content.decode(content_type['encoding'])

html_content = html_content.encode("utf-8")

open(filename,"wb").write(html_content)

....

這樣保存的文件就是中文了。

步驟:

先把gb2312的編碼轉換爲unicode編碼

而後在把unicode編碼轉換爲utf-8.

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。