python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)

本人對於Python學習建立了一個小小的學習圈子,爲各位提供了一個平臺,你們一塊兒來討論學習Python。歡迎各位到來Python學習羣:960410445一塊兒討論視頻分享學習。Python是將來的發展方向,正在挑戰咱們的分析能力及對世界的認知方式,所以,咱們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,纔是掌握真正的價值所在。
html

隨機User-Agent
正則表達式

fake_useragent庫,假裝請求頭學習



獲取代理ip網站

在免費的代理網站爬取代理ip,免費代理的採集也很簡單,無非就是:訪問頁面頁面 —> 正則/xpath提取 —> 保存.net

代理ip網站代理

有代理:https://www.youdaili.net/Daili/guonei/cdn

66代理:http://www.66ip.cn/6.html視頻

西刺代理:https://www.xicidaili.com/htm

快代理:https://www.kuaidaili.com/free/
blog

根據網頁結果,適用正則表達式匹配

這種方法適合翻頁的網頁



先獲取特定標籤

解析



檢測代理ip可用性

第一種方法:經過返回的狀態碼判斷





第二種方法:使用requests包來進行驗證





第三種方法:使用telnet

相關文章
相關標籤/搜索