python開源項目Scrapy抓取文件亂碼解決

scrapy進行頁面抓去的時候,保存的文件出現亂碼,通過分析是編碼的緣由,只須要把編碼轉換爲utf-8便可,代碼片斷html

......
import chardet
......
        content_type = chardet.detect(html_content)
        #print(content_type['encoding'])
        if content_type['encoding'] != "UTF-8":
            html_content = html_content.decode(content_type['encoding'])
        html_content = html_content.encode("utf-8")
        open(filename,"wb").write(html_content)
....
這樣保存的文件就是中文了。
步驟:
先把gb2312的編碼轉換爲unicode編碼
而後在把unicode編碼轉換爲utf-8.
相關文章
相關標籤/搜索