爬蟲亂碼問題的處理

爬蟲亂碼問題 經歷過學或者寫爬蟲的小夥伴可能都會有這樣的問題,爬取的網頁源碼或文本內容直接亂碼。 下面演示下亂碼的處理方法。 區別就是這一行:res.encoding = 'utf-8’ 注意 大部分網頁都是utf-8編碼的沒錯,但是也有一部分網頁是gbk編碼的,所以只需把utf-8改成gbk即可。其他少部分的也有另外的編碼格式。 除了一個個試,還有什麼辦法呢? 看下圖:在網頁中查看源代碼。 在源
相關文章
相關標籤/搜索