爬蟲亂碼問題的處理

時間 2020-12-26

原文原文鏈接

爬蟲亂碼問題經歷過學或者寫爬蟲的小夥伴可能都會有這樣的問題，爬取的網頁源碼或文本內容直接亂碼。下面演示下亂碼的處理方法。區別就是這一行：res.encoding = 'utf-8’ 注意大部分網頁都是utf-8編碼的沒錯，但是也有一部分網頁是gbk編碼的，所以只需把utf-8改成gbk即可。其他少部分的也有另外的編碼格式。除了一個個試，還有什麼辦法呢？看下圖：在網頁中查看源代碼。在源

>>阅读原文<<