在編寫爬蟲爬取數據的時候,由於不少網站都有反爬蟲措施,因此很容易被封IP,就不能繼續爬了。在爬取大數據量的數據時更是瑟瑟發抖,時刻擔憂着下一秒IP可能就被封了。html
本文就如何解決這個問題總結出一些應對措施,這些措施能夠單獨使用,也能夠同時使用,效果更好。python
在請求頭中把User-Agent設置成瀏覽器中的User-Agent,來僞造瀏覽器訪問。好比:git
還能夠先收集多種瀏覽器的User-Agent,每次發起請求時隨機從中選一個使用,能夠進一步提升安全性:github
把上面隨機選擇一個User-Agent的代碼封裝成一個函數:瀏覽器
注:一些常見瀏覽器的User-Agent可參見:https://blog.csdn.net/qianxing111/article/details/79415857安全
若從瀏覽器中能夠正常訪問一個頁面,則能夠將瀏覽器中的cookies複製過來使用,好比:cookie
注:用瀏覽器cookies發起請求後,若是請求頻率過於頻繁仍會被封IP,這時能夠在瀏覽器上進行相應的手工驗證(好比點擊驗證圖片等),而後就能夠繼續正常使用該cookies發起請求。app
能夠換着用多個代理IP來進行訪問,防止同一個IP發起過多請求而被封IP,好比:dom
道高一尺魔高一丈,你有反爬蟲措施,那我也有各類"反反爬蟲"的措施,GitHub上就有一位大神專門整理了一個這樣的項目:Anti-Anti-Spider,連接地址爲:
https://github.com/luyishisi/Anti-Anti-Spider
能夠研究一下。ide
做者:m2fox
連接:https://www.jianshu.com/p/736412753551