反網絡爬蟲以及解決方案

時間 2019-11-17

原文原文鏈接

作技術的或者是互聯網行業的人可能都比較清楚，網絡爬蟲對於互聯網的共享是很是大的，其中有超過一半的流量都是網絡爬蟲的貢獻，若是一個網站不設置發爬蟲機制，那就會成爲一個透明的研究所同樣，全部的信息都會公開化，因此在沒有其餘特殊性的狀況下，全部的網站都會設置發爬蟲機制，可是，就算是這樣，網絡爬蟲仍是有辦法進行反爬蟲的機制土坯。今天犀牛代理IP就給你們介紹一部分常見的反網絡爬蟲以及應對反網絡爬蟲的突破方法。瀏覽器

1.動態頁面的限制服務器

爬蟲工做者可能會遇到這樣的尷尬，當你抓取下目標頁面以後，你發現，關鍵信息處一片空白，只有密密麻麻一片的框架代碼，這是由於該網站的信息是經過用戶Post的XHR動態返回內容信息，解決這種問題就是要經過開發者工具（FireBug等）對網站流進行分析，對內容信息進行抓取，獲取所須要的內容。cookie

那麼更復雜一些的就是對動態請求進行加密，參數滅有辦法進行解析，便也是沒有辦法進行抓取。在這樣的狀況之下網絡

，能夠經過Mechanize，selenium RC，調用瀏覽器內核，就像真實使用瀏覽器上網那樣進行抓取，抓取的成功率會大幅度上升，可是抓取速度卻不敢恭維框架

經測試，用urllib抓取拉勾網招聘信息30頁所需時間爲三十多秒，而用模擬瀏覽器內核抓取須要2--3分鐘。工具

2.用戶行爲檢測性能

有一些是網站經過檢測和分析一些用戶的行爲，好比說是針對cookies，經過檢查cookies來判斷用戶是否是能夠利用和保存的有效客戶，一般是須要登錄的網站，常常會採用這樣的技術。層次再深的還有，信息驗證，部分網站的登錄是須要驗證嗎的驗證的，就像登錄的時候，系統會自動分配出驗證碼，authenticity_token，authenticity_token會和用戶提交的登陸名和密碼一塊兒發送回服務器。測試

3.IP的訪問頻率被限制網站

部分訪問是存在着惡意性質的，一些平臺爲了防止這種狀況的發生，會在某個同一個IP在單元時間內超過必定的次數的時候，將禁止這個IP繼續訪問。對於這個限制IP訪問效率，可使用代理IP的方法來解決問題。網上有不少代理IP的資源，也有一些是免費的，可是免費代理的弊端仍是很多的，你就例如說匿名性就不是特別的號，很容易就會被賭坊檢測出來你在使用代理IP，可是購買像是犀牛代理IP的這種，不只僅能夠保障你的質量，並且匿名性也好，你能夠放心的在任何平臺上進行使用，提升工做效率。加密

以上簡單的說了三種常見的反爬蟲已經反爬蟲的應對方法，通常來說越高級的爬蟲被封鎖的機率救會越低，可是性能會比較低一些，成本上相對也會比較高一點。當成本高到必定的程度了，咱們即可以無需再對爬蟲進行封鎖。