常見的反爬蟲措施

時間 2021-05-09

原文原文鏈接

爬蟲工做的過程，就是與反爬蟲做鬥爭的過程，能夠這樣說，沒有遇到反爬的工程師，不是好的爬蟲工程師。有不少問題咱們常常遇到，今天就來簡單說幾個常見的反爬策略。瀏覽器

1、爬取某網站時，提示「因爲訪問頻繁，須要經過驗證碼才能訪問頁面」
解決方法：網站經過用戶的Cookie信息對用戶進行識別與分析，因此要防止目標網站識別咱們的會話信息。
在Scrapy中，咱們能夠在爬蟲項目的setting.py文件中進行設置，將setting.py中的下面兩行代碼裏的「COOKIES_ENABLED = False」的註釋去掉便可。
安全

2、爬取過快也會遭到封殺，設置下載延時
部分網站經過分析咱們的爬取頻率對爬蟲進行禁止或限制，因此咱們須要控制爬取時間間隔。在Scrapy中一樣是在setting.py文件中進行設置。咱們能夠設置隨機間隔時間，這樣就毫無規律，不容易被發現。網站

3、設置用戶IP代理池
爬蟲策略和反爬蟲策略都須要用到代理IP，在瀏覽器設置動態IP。根據瀏覽器設置動態IP代理，經過變更電腦瀏覽器更改IP，用於瀏覽其餘的網頁。可是對於須要常常更換IP需求者，仍是沒有這麼方便的。使用http這種方法比較方便並且IP資源的質量也比較好，IPIDEA覆蓋全球240+國家地區ip，並穩定，可以知足大量的需求，安全性也能夠獲得保障。spa

相關標籤/搜索