IP代理池的Python實現

爬蟲採集數據時,若是頻繁的訪問某個網站,會被封IP,有些是禁止訪問3小時,有些是直接拉黑名單。爲了不被禁,通常採起的措施有三種:html 放慢抓取的速度,設置一個時間間隔; 模擬瀏覽器行爲,如採用Selenium + PhantomJS; 設置IP代理,按期更換代理IP,讓網站不認爲來自一個IP。 本文實現其中的第三種方法。 國內提供IP代理的網站有不少,咱們以其中的一個爲例:http://www
相關文章
相關標籤/搜索