python使用http、https代理

時間 2019-12-05

原文原文鏈接

在國內利用Python從Internet上爬取數據時，有些網站或API接口被限速或屏蔽，這時使用代理能夠加速爬取過程，減小請求失敗，Python程序使用代理的方法主要有如下幾種：網絡

（1）若是是在代碼中使用一些網絡庫或爬蟲框架進行數據爬取，通常這種框架都會支持設置代理，例如：框架

import urllib.request as urlreq
# 設置https代理
ph = urlreq.ProxyHandler({'https': 'https://127.0.0.1:1080'})
oper = urlreq.build_opener(ph)
# 將代理安裝到全局環境，這樣全部請求都會自動使用代理
urlreq.install_opener(oper)
res = oper.open("https://www.google.com")
print(res.read())
import requests as req
print(req.get("https://www.google.com", proxies={'https': 'https://127.0.0.1:1080'}).content)
（2）若是使用的庫沒有提供設置代理的接口，可是底層使用了urllib、requests等庫，能夠嘗試設置HTTP_PROXY 和HTTPS_PROXY環境變量，經常使用的網絡庫會自動識別這些環境變量，使用變量設置的代理髮起請求，設置以下：工具

import os
os.environ['http_proxy'] = 'http://127.0.0.1:1080'
os.environ['https_proxy'] = 'https://127.0.0.1:1080'
（3）若是上述兩種方法都沒有用，那麼還能夠使用一些能夠監聽、攔截和修改網絡包的工具和庫如（Fiddler、mitmproxy）來攔截http請求包並修改地址，達到使用代理的效果。
---------------------
做者：wanghong5211
來源：CSDN
原文：https://blog.csdn.net/wanghong5211/article/details/70596425
版權聲明：本文爲博主原創文章，轉載請附上博文連接！網站