爬蟲工做的過程,就是與反爬蟲做鬥爭的過程,能夠這樣說,沒有遇到反爬的工程師,不是好的爬蟲工程師。有不少問題咱們常常遇到,今天就來簡單說幾個常見的反爬策略。瀏覽器
1、爬取某網站時,提示「因爲訪問頻繁,須要經過驗證碼才能訪問頁面」
解決方法:網站經過用戶的Cookie信息對用戶進行識別與分析,因此要防止目標網站識別咱們的會話信息。
在Scrapy中,咱們能夠在爬蟲項目的setting.py文件中進行設置,將setting.py中的下面兩行代碼裏的「COOKIES_ENABLED = False」 的註釋去掉便可。
安全
2、爬取過快也會遭到封殺,設置下載延時
部分網站經過分析咱們的爬取頻率對爬蟲進行禁止或限制,因此咱們須要控制爬取時間間隔。在Scrapy中一樣是在setting.py文件中進行設置。咱們能夠設置隨機間隔時間,這樣就毫無規律,不容易被發現。網站
3、設置用戶IP代理池
爬蟲策略和反爬蟲策略都須要用到代理IP,在瀏覽器設置動態IP。根據瀏覽器設置動態IP代理,經過變更電腦瀏覽器更改IP,用於瀏覽其餘的網頁。可是對於須要常常更換IP需求者,仍是沒有這麼方便的。使用http這種方法比較方便並且IP資源的質量也比較好,IPIDEA覆蓋全球240+國家地區ip,並穩定,可以知足大量的需求,安全性也能夠獲得保障。spa