搭建屬於本身的代理ip池

這是個人第六篇原創文章
html

繼上一篇說了反爬蟲以後，我說今天這篇文章會搭建一個屬於本身的代理ip池，因此，爲了避免食言，就寫了這篇文章，那好廢話很少說，進入正題
python

1web

目標網站正則表達式

爬取代理ip，這也須要找網頁，這就得看看哪一個網頁提供這些代理ip了，本人知道了幾個免費提供代理ip的網站，以下：數據庫

無憂代理ip微信
芝麻代理ip機器學習
西刺代理ip工具
雲連代理ip學習

我選擇了爬取西刺代理的網站。網站

分析網站結構

咱們須要獲取的高匿代理，按下F12打開開發者工具

上面咱們要獲取的數據是ip地址，端口和類型這三個就能夠了，能夠看到，這些數據都在一個tr標籤裏，可是有兩個不一樣的tr標籤，這樣能夠用正則表達式，利用相隔的html結構先把整個內容匹配下來，再把重要信息匹配下來，最後就把他弄成這個樣子{'https': 'https://ip:端口'}存入列表便可，最後就隨機獲取一個ip，而後能夠先判斷是否有用，再拿來作你此時項目的代理ip，判斷是否用的方法就是隨便拿一個百度獲取別的網站，加上代理ip發送get請求，看看status_code()的返回碼是否是200，便可，就以下面這樣

代碼部分

1.匹配數據，並挑選數據存入列表

2.隨機獲取ip，並寫好ip格式

我這裏是把他存入列表，現抓現用，是由於我如今的爬蟲項目都是很小的，只須要這些就能夠了。

END

以上就是我簡單搭建的代理ip池了，等到之後慢慢完善，你能夠把他們存入你的數據庫，而後要用的時候，就隨機拿出來，先看看有沒有用，沒用的話就刪除，有用就拿來用便可。

python電子書：公衆號回覆pdf

黑馬的2017年python零基礎教程：公衆號回覆：黑馬

機器學習(裏面有優達資源)：公衆號回覆：機器學習

某課的python入門與進階課程：公衆號回覆入門

上一篇文章：今天說說反爬蟲與反反爬蟲

平常學python

一個專一於python的公衆號

本文分享自微信公衆號 - 平常學python（daily_learn）。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。