爬取網頁是發現文本亂碼問題

時間 2021-01-18

原文原文鏈接

這兩天開始學習爬蟲，發現爬取網站時，爬下來的源碼裏面的文本內容亂碼，奇怪的是有的網站沒有亂碼，有的網站亂碼了，查找資料時發現，這是由於每個網站的編碼方式差異造成的。這個是爬取內涵段子時的源代碼，當打印網頁源代碼時，發現文本信息亂碼：然後我又試了下csdn的網站：發現文本信息並沒有亂碼在網上查找資料知道，每個網站的編碼方式不一樣，查看每個網址的編碼方式可以打開瀏覽器的管理者工具來查看，以

>>阅读原文<<