實現爬蟲的套路

時間 2020-06-01

原文原文鏈接

實現爬蟲的套路 1，準備url 準備start_url url變化不規律，，總數不肯定經過代碼提取下一頁的url xpath 尋址url地址，部分參數在當前的響應中準備url_list 頁碼明確 url地址規律明顯 2，發送請求獲取響應添加隨機的User-Agent，反反爬蟲添加隨機的代理ip，反反爬蟲在對方判斷出咱們是爬蟲以後，應該添加更多的headers字段，包括cookie coo

>>阅读原文<<