scrapy進行頁面抓去的時候,保存的文件出現亂碼,通過分析是編碼的緣由,只須要把編碼轉換爲utf-8便可,代碼片斷html
......
import chardet
......
content_type = chardet.detect(html_content)
#print(content_type['encoding'])
if content_type['encoding'] != "UTF-8":
html_content = html_content.decode(content_type['encoding'])
html_content = html_content.encode("utf-8")
open(filename,"wb").write(html_content)
....
這樣保存的文件就是中文了。
步驟:
先把gb2312的編碼轉換爲unicode編碼
而後在把unicode編碼轉換爲utf-8.