Python爬蟲:反爬措施及應對措施-selenium+phantomjs

反爬策略 1. 判斷user-agent客戶端標識來判斷是否爲爬蟲css 解決辦法:封裝 user-agent 到請求頭 2. 經過訪問頻率來判斷 解決辦法:html 設置等待時長,爬取時間間隔,能夠使用強制等待。 在用戶高峯期爬取,衝散日誌 3. 封 IPweb 解決辦法:使用代理池 4. 頁面的內容沒法直接獲取,都是js 代碼ajax 解決辦法:selenium + phantomjs 的組合
相關文章
相關標籤/搜索