爬蟲的瀏覽器僞裝技術(019)

一:瀏覽器僞裝技術原理: 我們嘗試着爬取csdn的博客,可以發現返回403的狀態碼,因爲對方服務器會對爬蟲進行屏蔽。此時我們需要僞裝成瀏覽器進行爬取。我們一般都過報頭進行瀏覽器的僞裝。 二:實戰 瀏覽器的網頁的 報頭中用 User-Agent 字段對應的值來判斷是否是瀏覽器。 所以如果要模擬成瀏覽器就要在請求的時候對報文進行修改,將User-Agent的值改成對應的瀏覽器應該有的值。 (1)下面我
相關文章
相關標籤/搜索