Python爬蟲解決亂碼問題

問題緣由: 爬取的全部網頁不管何種編碼格式,都轉化爲utf-8格式進行存儲,與源代碼編碼格式不一樣因此出現亂碼。html 目前大部分都是utf-8格式,一部分是gbk格式或者(會出現亂碼),還有一些不常見的,好比Windows-1254,UTF-8-SIG等這裏不作討論。國內網頁尚未看到別的編碼格式,歡迎補充指正!web 簡單科普一下:   UTF-8通用性比較好,是用以解決國際上字符的一種多字節
相關文章
相關標籤/搜索