爬取網頁是發現文本亂碼問題

這兩天開始學習爬蟲,發現爬取網站時,爬下來的源碼裏面的文本內容亂碼,奇怪的是有的網站沒有亂碼,有的網站亂碼了,查找資料時發現,這是由於每個網站的編碼方式差異造成的。   這個是爬取內涵段子時的源代碼,當打印網頁源代碼時,發現文本信息亂碼: 然後我又試了下csdn的網站: 發現文本信息並沒有亂碼 在網上查找資料知道,每個網站的編碼方式不一樣,查看每個網址的編碼方式可以打開瀏覽器的管理者工具來查看,以
相關文章
相關標籤/搜索