Python爬蟲解決亂碼問題

時間 2020-10-06

標籤 html web 瀏覽器 svg 編碼 url code xml htm blog 欄目 Python 简体版

原文原文鏈接

問題緣由：爬取的全部網頁不管何種編碼格式，都轉化爲utf-8格式進行存儲，與源代碼編碼格式不一樣因此出現亂碼。html 目前大部分都是utf-8格式，一部分是gbk格式或者（會出現亂碼），還有一些不常見的，好比Windows-1254，UTF-8-SIG等這裏不作討論。國內網頁尚未看到別的編碼格式，歡迎補充指正！web 簡單科普一下：　　 UTF-8通用性比較好，是用以解決國際上字符的一種多字節

>>阅读原文<<