你們對HTTP代理應該都很是熟悉,它在不少方面都有着極爲普遍的應用。HTTP代理分爲正向代理和反向代理兩種,後者通常用於將防火牆後面的服務提供給用戶訪問或者進行負載均衡,典型的有Nginx、HAProxy等。本文所討論的是正向代理。python
HTTP代理最多見的用途是用於網絡共享、網絡加速和網絡限制突破等。此外,HTTP代理也經常使用於Web應用調試、Android/IOS APP 中所調用的Web API監控和分析,目前的知名軟件有Fiddler、Charles、Burp Suite和mitmproxy等。HTTP代理還可用於請求/響應內容修改,在不改變服務端的狀況下爲Web應用增長額外的功能或者改變應用行爲等。nginx
HTTP代理本質上是一個Web應用,它和其餘普通Web應用沒有根本區別。HTTP代理收到請求後,根據Header中Host字段的主機名和Get/POST請求地址綜合判斷目標主機,創建新的HTTP請求並轉發請求數據,並將收到的響應數據轉發給客戶端。json
若是請求地址是絕對地址,HTTP代理採用該地址中的Host,不然使用Header中的HOST字段。作一個簡單測試,假設網絡環境以下:服務器
使用telnet進行測試網絡
$ telnet 192.168.1.3 GET / HTTP/1.0 HOST: 192.168.1.2
注意最後須要連續兩個回車,這是HTTP協議要求。完成後,能夠收到 http://192.168.1.2/ 的頁面內容。下面作一下調整,GET請求時帶上絕對地址session
$ telnet 192.168.1.3 GET http://httpbin.org/ip HTTP/1.0 HOST: 192.168.1.2
注意這裏一樣設置了HOST爲192.168.1.2,但運行結果卻返回了 http://httpbin.org/ip 頁面的內容,也就是公網IP地址信息。併發
從上面的測試過程能夠看出,HTTP代理並非什麼很複雜的東西,只要將原始請求發送到代理服務器便可。在沒法設置HTTP代理的狀況下,對於少許Host須要走HTTP代理的場景來講,最簡單的方式就是將目標Host域名的IP指向代理服務器,能夠採起修改hosts文件的方式來實現。app
urllib2是Python標準庫,功能很強大,只是使用起來稍微麻煩一點。在Python 3中,urllib2再也不保留,遷移到了urllib模塊中。urllib2中經過ProxyHandler來設置使用代理服務器。負載均衡
proxy_handler = urllib2.ProxyHandler({'http': '121.193.143.249:80'}) opener = urllib2.build_opener(proxy_handler) r = opener.open('http://httpbin.org/ip') print(r.read())
也能夠用install_opener將配置好的opener安裝到全局環境中,這樣全部的urllib2.urlopen都會自動使用代理。curl
urllib2.install_opener(opener) r = urllib2.urlopen('http://httpbin.org/ip') print(r.read())
在Python 3中,使用urllib。
proxy_handler = urllib.request.ProxyHandler({'http': 'http://121.193.143.249:80/'}) opener = urllib.request.build_opener(proxy_handler) r = opener.open('http://httpbin.org/ip') print(r.read())
requests是目前最優秀的HTTP庫之一,也是我平時構造http請求時使用最多的庫。它的API設計很是人性化,使用起來很容易上手。給requests設置代理很簡單,只須要給proxies設置一個形如 {'http': 'x.x.x.x:8080', 'https': 'x.x.x.x:8080'}
的參數便可。其中http和https相互獨立。
In [5]: requests.get('http://httpbin.org/ip', proxies={'http': '121.193.143.249:80'}).json() Out[5]: {'origin': '121.193.143.249'}
能夠直接設置session的proxies屬性,省去每次請求都要帶上proxies參數的麻煩。
s = requests.session() s.proxies = {'http': '121.193.143.249:80'} print(s.get('http://httpbin.org/ip').json())
urllib2 和 Requests 庫都能識別 HTTP_PROXY 和 HTTPS_PROXY 環境變量,一旦檢測到這些環境變量就會自動設置使用代理。這在用HTTP代理進行調試的時候很是有用,由於不用修改代碼,能夠隨意根據環境變量來調整代理服務器的ip地址和端口。*nix中的大部分軟件也都支持HTTP_PROXY環境變量識別,好比curl、wget、axel、aria2c等。
$ http_proxy=121.193.143.249:80 python -c 'import requests; print(requests.get("http://httpbin.org/ip").json())' {u'origin': u'121.193.143.249'} $ http_proxy=121.193.143.249:80 curl httpbin.org/ip { "origin": "121.193.143.249" }
在IPython交互環境中,可能常常須要臨時性地調試HTTP請求,能夠簡單經過設置 os.environ['http_proxy']
增長/取消HTTP代理來實現。
In [245]: os.environ['http_proxy'] = '121.193.143.249:80' In [246]: requests.get("http://httpbin.org/ip").json() Out[246]: {u'origin': u'121.193.143.249'} In [249]: os.environ['http_proxy'] = '' In [250]: requests.get("http://httpbin.org/ip").json() Out[250]: {u'origin': u'x.x.x.x'}
MITM 源於 Man-in-the-Middle Attack,指中間人攻擊,通常在客戶端和服務器之間的網絡中攔截、監聽和篡改數據。
mitmproxy是一款Python語言開發的開源中間人代理神器,支持SSL,支持透明代理、反向代理,支持流量錄製回放,支持自定義腳本等。功能上同Windows中的Fiddler有些相似,但mitmproxy是一款console程序,沒有GUI界面,不過用起來還算方便。使用mitmproxy能夠很方便的過濾、攔截、修改任意通過代理的HTTP請求/響應數據包,甚至能夠利用它的scripting API,編寫腳本達到自動攔截修改HTTP數據的目的。
# test.py def response(flow): flow.response.headers["BOOM"] = "boom!boom!boom!"
上面的腳本會在全部通過代理的Http響應包頭裏面加上一個名爲BOOM的header。用mitmproxy -s 'test.py'
命令啓動mitmproxy,curl驗證結果發現的確多了一個BOOM頭。
$ http_proxy=localhost:8080 curl -I 'httpbin.org/get' HTTP/1.1 200 OK Server: nginx Date: Thu, 03 Nov 2016 09:02:04 GMT Content-Type: application/json Content-Length: 186 Connection: keep-alive Access-Control-Allow-Origin: * Access-Control-Allow-Credentials: true BOOM: boom!boom!boom! ...
顯然mitmproxy腳本能作的事情遠不止這些,結合Python強大的功能,能夠衍生出不少應用途徑。除此以外,mitmproxy還提供了強大的API,在這些API的基礎上,徹底能夠本身定製一個實現了特殊功能的專屬代理服務器。
通過性能測試,發現mitmproxy的效率並非特別高。若是隻是用於調試目的那還好,但若是要用到生產環境,有大量併發請求經過代理的時候,性能仍是稍微差點。我用twisted實現了一個簡單的proxy,用於給公司內部網站增長功能、改善用戶體驗,之後有機會再和你們分享。