有時候爬的次數太多時ip容易被禁,因此須要ip代理的幫助。
今天爬的思路是:到雲代理獲取大量ip代理,逐個檢測,將超時不可用的代理排除,留下優質的ip代理。html
首先看看今天要爬取的網址瀏覽器
首先判斷網址是動態網址仍是靜態網址,靜態網址就是直接能經過翻頁從網址裏找到頁碼,如下是每頁的網址:bash
因此推出是靜態網址,每頁page遞增1的規律網絡
今天打算用xpath來解析數據,首先打開F12,能夠看到每條代理的信息都包裹在tr中,所以咱們能夠先經過tr獲取所有信息,再遍歷tr裏的ip,端口和類型
app
附上完整代碼和詳細註釋學習
運行效果以下:
網站
這個網站一次爬取次數多了,瀏覽器代理(headers)容易掛,換個瀏覽器代理便可。ui
本文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,若有問題請及時聯繫咱們以做處理
url
想要獲取更多Python學習資料能夠加
QQ:2955637827私聊
或加Q羣630390733
你們一塊兒來學習討論吧!spa