Python爬蟲經常使用小技巧之設置代理IP

時間 2019-11-05

原文原文鏈接

設置代理IP的緣由api

咱們在使用Python爬蟲爬取一個網站時，一般會頻繁訪問該網站。假如一個網站它會檢測某一段時間某個IP的訪問次數，若是訪問次數過多，它會禁止你的訪問。因此你能夠設置一些代理服務器來幫助你作工做，每隔一段時間換一個代理，這樣便不會出現由於頻繁訪問而致使禁止訪問的現象。服務器

咱們在學習Python爬蟲的時候，也常常會碰見所要爬取的網站採起了反爬取技術致使爬取失敗。高強度、高效率地爬取網頁信息經常會給網站服務器帶來巨大壓力，因此同一個IP反覆爬取同一個網頁，就極可能被封，因此下面這篇文章講述一個爬蟲技巧，設置代理IP網絡

代理的獲取有不少方式，網上有不少免費的能夠去爬取一些試試，可是免費的代理使用起來也是很吃力的。還有就是如今網上有不少的代理供應商，能夠在網上尋找下，而後找家靠譜的使用。畢竟網絡太大了，代理供應商確定也是良莠不齊的，因此找到合適的代理仍是須要花點時間的。在這裏我就是使用了咱們長期使用的一家質量好的代理，億牛雲代理，並且是使用的他們的爬蟲代理（動態轉發）和通常的api模式不同。這種更簡單更方便，對於懶人來講絕對是最佳選擇。dom

具體代碼的使用學習

#! -*- encoding:utf-8 -*-網站

import requestsspa

import random代理

# 要訪問的目標頁面code

targetUrl = "http://httpbin.org/ip"ip

# 要訪問的目標HTTPS頁面

# targetUrl = "https://httpbin.org/ip"

# 代理服務器

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理隧道驗證信息