網頁數據爬取中文亂碼處理--編碼問題

時間 2021-01-05

原文原文鏈接

自學爬蟲有一段時間了，期間總是覺得內容編碼會傻傻分不清楚，尤其是直接網頁拿數據的時候，遇見中文有時候特別麻煩，看大神介紹的東西太多，只記下了處理方式，僅供參考，不對地方歡迎大家指正~~ 一般請求返回內容編碼方式步驟如下： 1、查看數據源網頁的編碼形式--爬取數據所在網頁源代碼就有寫： 2、編碼解析： respond.decode(請求返回的編碼格式).encode(Python默認的utf-8)

>>阅读原文<<