這是個人第六篇原創文章
html
繼上一篇說了反爬蟲以後,我說今天這篇文章會搭建一個屬於本身的代理ip池,因此,爲了避免食言,就寫了這篇文章,那好廢話很少說,進入正題
python
1web
目標網站正則表達式
爬取代理ip,這也須要找網頁,這就得看看哪一個網頁提供這些代理ip了,本人知道了幾個免費提供代理ip的網站,以下:數據庫
無憂代理ip微信
芝麻代理ip機器學習
西刺代理ip工具
雲連代理ip學習
我選擇了爬取西刺代理的網站。網站
2
分析網站結構
咱們須要獲取的高匿代理,按下F12打開開發者工具
上面咱們要獲取的數據是ip地址,端口和類型這三個就能夠了,能夠看到,這些數據都在一個tr標籤裏,可是有兩個不一樣的tr標籤,這樣能夠用正則表達式,利用相隔的html結構先把整個內容匹配下來,再把重要信息匹配下來,最後就把他弄成這個樣子{'https': 'https://ip:端口'}存入列表便可,最後就隨機獲取一個ip,而後能夠先判斷是否有用,再拿來作你此時項目的代理ip,判斷是否用的方法就是隨便拿一個百度獲取別的網站,加上代理ip發送get請求,看看status_code()的返回碼是否是200,便可,就以下面這樣
3
代碼部分
1.匹配數據,並挑選數據存入列表
2.隨機獲取ip,並寫好ip格式
我這裏是把他存入列表,現抓現用,是由於我如今的爬蟲項目都是很小的,只須要這些就能夠了。
以上就是我簡單搭建的代理ip池了,等到之後慢慢完善,你能夠把他們存入你的數據庫,而後要用的時候,就隨機拿出來,先看看有沒有用,沒用的話就刪除,有用就拿來用便可。
python電子書:公衆號回覆pdf
黑馬的2017年python零基礎教程:公衆號回覆:黑馬
機器學習(裏面有優達資源):公衆號回覆:機器學習
某課的python入門與進階課程:公衆號回覆入門
上一篇文章:今天說說反爬蟲與反反爬蟲
平常學python
一個專一於python的公衆號
本文分享自微信公衆號 - 平常學python(daily_learn)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。