urllib 進階

時間 2019-12-02

標籤 urllib 進階简体版

原文原文鏈接

urlopen 裏面能夠傳遞四個參數html

urllib.urlopen(url[, data[, proxies[, context]]])python

url 連接git

data 傳參github

數據傳送分爲POST和GET兩種方式，兩種方式有什麼區別呢？編程

最重要的區別是GET方式是直接以連接形式訪問，連接中包含了全部的參數，固然若是包含了密碼的話是一種不安全的選擇，不過你能夠直觀地看到本身提交了什麼內容。POST則不會在網址上顯示全部的參數，不過若是你想直接查看提交了什麼就不太方便了，你們能夠酌情選擇。json

POST方式：

上面咱們說了data參數是幹嗎的？對了，它就是用在這裏的，咱們傳送的數據就是這個參數data，下面演示一下POST方式。瀏覽器

1 import urllib
2 import urllib2
3  
4 values = {"username":"12222222qq.com","password":"XXXX"}
5 data = urllib.urlencode(values)
6 url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
7 request = urllib2.Request(url,data)
8 response = urllib2.urlopen(request)
9 print response.read()

GET方式：

至於GET方式咱們能夠直接把參數寫到網址上面，直接構建一個帶參數的URL出來便可。安全

import urllib
import urllib2
 
values={}
values['username'] = "12222222@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

構造以後的url服務器

http://passport.csdn.net/account/login?username=12222222%40qq.com&password=XXXX

構造Request

其實上面的urlopen參數能夠傳入一個request請求,它其實就是一個Request類的實例，構造時須要傳入Url,Data等等的內容。好比上面的兩行代碼，咱們能夠這麼改寫app

1 import urllib2
2  
3 request = urllib2.Request("http://www.baidu.com")
4 response = urllib2.urlopen(request)
5 print response.read()

運行結果是徹底同樣的，只不過中間多了一個request對象，推薦你們這麼寫，由於在構建請求時還須要加入好多內容，經過構建一個request，服務器響應請求獲得應答，這樣顯得邏輯上清晰明確。

設置Headers

有些網站會有反扒機制設置header模擬瀏覽器能夠有效規避這一現象。

能夠經過wireshark或者chrom獲取瀏覽器發送的信息，其中agent就是請求的身份，若是沒有寫入請求身份，那麼服務器不必定會響應，因此能夠在headers中設置agent,例以下面的例子，這個例子只是說明了怎樣設置的headers，小夥伴們看一下設置格式就好。

 1 import urllib  
 2 import urllib2  
 3  
 4 url = 'http://www.server.com/login'
 5 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
 6 values = {'username' : 'cqc',  'password' : 'XXXX' }  
 7 headers = { 'User-Agent' : user_agent }  
 8 data = urllib.urlencode(values)  
 9 request = urllib2.Request(url, data, headers)  
10 response = urllib2.urlopen(request)  
11 page = response.read()

對付防盜鏈，服務器會識別headers中的referer是否是它本身，若是不是，有的服務器不會響應，因此咱們還能夠在headers中加入referer

1 headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' ,'Referer':'http://www.zhihu.com/articles' }

在傳送請求時把headers傳入Request參數裏，這樣就能應付防盜鏈了。

另外headers的一些屬性，下面的須要特別注意一下：

User-Agent : 有些服務器或 Proxy 會經過該值來判斷是不是瀏覽器發出的請求
Content-Type : 在使用 REST 接口時，服務器會檢查該值，用來肯定 HTTP Body 中的內容該怎樣解析。
application/xml ：在 XML RPC，如 RESTful/SOAP 調用時使用
application/json ：在 JSON RPC 調用時使用
application/x-www-form-urlencoded ：瀏覽器提交 Web 表單時使用
在使用服務器提供的 RESTful 或 SOAP 服務時， Content-Type 設置錯誤會致使服務器拒絕服務

其餘的有必要的能夠審查瀏覽器的headers內容，在構建時寫入一樣的數據便可

Proxy（代理）的設置

urllib2 默認會使用環境變量 http_proxy 來設置 HTTP Proxy。假如一個網站它會檢測某一段時間某個IP 的訪問次數，若是訪問次數過多，它會禁止你的訪問。因此你能夠設置一些代理服務器來幫助你作工做，每隔一段時間換一個代理，網站君都不知道是誰在搗鬼了，這酸爽！

下面一段代碼說明了代理的設置用法

1 import urllib2
2 enable_proxy = True
3 proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
4 null_proxy_handler = urllib2.ProxyHandler({})
5 if enable_proxy:
6     opener = urllib2.build_opener(proxy_handler)
7 else:
8     opener = urllib2.build_opener(null_proxy_handler)
9 urllib2.install_opener(opener)

urlopen 一樣可使用匿名代理。

1 # Use http://www.someproxy.com:3128 for HTTP proxying
2 proxies = {'http': 'http://www.someproxy.com:3128'}
3 filehandle = urllib.urlopen(some_url, proxies=proxies)
4 # Don't use any proxies
5 filehandle = urllib.urlopen(some_url, proxies={})
6 # Use proxies from environment - both versions are equivalent
7 filehandle = urllib.urlopen(some_url, proxies=None)
8 filehandle = urllib.urlopen(some_url)

指定代理和使用系統默認代理：

1 >>> import urllib
2 >>> proxies = {'http': 'http://proxy.example.com:8080/'}
3 >>> opener = urllib.FancyURLopener(proxies)
4 >>> f = opener.open("http://www.python.org")
5 >>> f.read()

1 >>> import urllib
2 >>> opener = urllib.FancyURLopener({})
3 >>> f = opener.open("http://www.python.org/")
4 >>> f.read()

Timeout 設置

1 import urllib2
2 response = urllib2.urlopen('http://www.baidu.com', timeout=10)

1 import urllib2
2 response = urllib2.urlopen('http://www.baidu.com',data, 10)

SSL

 1 import socket, ssl
 2 
 3 context = ssl.SSLContext(ssl.PROTOCOL_TLSv1)
 4 context.verify_mode = ssl.CERT_REQUIRED
 5 context.check_hostname = True
 6 context.load_default_certs()
 7 
 8 s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
 9 ssl_sock = context.wrap_socket(s, server_hostname='www.verisign.com')
10 ssl_sock.connect(('www.verisign.com', 443))

https://docs.python.org/2/library/urllib.html#urllib.urlencode

使用 HTTP 的 PUT 和 DELETE 方法

http協議有六種請求方法，get,head,put,delete,post,options，咱們有時候須要用到PUT方式或者DELETE方式請求。

PUT：這個方法比較少見。HTML表單也不支持這個。本質上來說， PUT和POST極爲類似，都是向服務器發送數據，但它們之間有一個重要區別，PUT一般指定了資源的存放位置，而POST則沒有，POST的數據存放位置由服務器本身決定。
DELETE：刪除某一個資源。基本上這個也不多見，不過仍是有一些地方好比amazon的S3雲服務裏面就用的這個方法來刪除資源。

若是要使用 HTTP PUT 和 DELETE ，只能使用比較低層的 httplib 庫。雖然如此，咱們仍是能經過下面的方式，使 urllib2 可以發出 PUT 或DELETE 的請求，不過用的次數的確是少，在這裏提一下。

1 import urllib2
2 request = urllib2.Request(uri, data=data)
3 request.get_method = lambda: 'PUT' # or 'DELETE'
4 response = urllib2.urlopen(request)

使用DebugLog

相似wireshark和調試工具能夠將發送的交互包顯示出來。

1 import urllib2
2 httpHandler = urllib2.HTTPHandler(debuglevel=1)
3 httpsHandler = urllib2.HTTPSHandler(debuglevel=1)
4 opener = urllib2.build_opener(httpHandler, httpsHandler)
5 urllib2.install_opener(opener)
6 response = urllib2.urlopen('http://www.baidu.com')

other functuons

(string[, safe])
urllib.quote

1  >>> urllib.quote('https://docs.python.org/2/library/urllib.html#urllib.urlencode')
2  'https%3A//docs.python.org/2/library/urllib.html%23urllib.urlencode'
3  >>> urllib.quote_plus('https://docs.python.org/2/library/urllib.html#urllib.urlencode')
4  'https%3A%2F%2Fdocs.python.org%2F2%2Flibrary%2Furllib.html%23urllib.urlencode'
5  >>> urllib.quote_plus('https://docs.python.org/2/library/urllib.html#urllib.urlencode','/')
6  'https%3A//docs.python.org/2/library/urllib.html%23urllib.urlencode'
7  >>> urllib.unquote('https%3A//docs.python.org/2/library/urllib.html%23urllib.urlencode')
8  'https://docs.python.org/2/library/urllib.html#urllib.urlencode'

異常捕獲

HTTPError

 1 100：繼續  客戶端應當繼續發送請求。客戶端應當繼續發送請求的剩餘部分，或者若是請求已經完成，忽略這個響應。
 2 
 3 101： 轉換協議  在發送完這個響應最後的空行後，服務器將會切換到在Upgrade 消息頭中定義的那些協議。只有在切換新的協議更有好處的時候才應該採起相似措施。
 4 
 5 102：繼續處理   由WebDAV（RFC 2518）擴展的狀態碼，表明處理將被繼續執行。
 6 
 7 200：請求成功      處理方式：得到響應的內容，進行處理
 8 
 9 201：請求完成，結果是建立了新資源。新建立資源的URI可在響應的實體中獲得    處理方式：爬蟲中不會遇到
10 
11 202：請求被接受，但處理還沒有完成    處理方式：阻塞等待
12 
13 204：服務器端已經實現了請求，可是沒有返回新的信 息。若是客戶是用戶代理，則無須爲此更新自身的文檔視圖。    處理方式：丟棄
14 
15 300：該狀態碼不被HTTP/1.0的應用程序直接使用， 只是做爲3XX類型迴應的默認解釋。存在多個可用的被請求資源。    處理方式：若程序中可以處理，則進行進一步處理，若是程序中不能處理，則丟棄
16 301：請求到的資源都會分配一個永久的URL，這樣就能夠在未來經過該URL來訪問此資源    處理方式：重定向到分配的URL
17 
18 302：請求到的資源在一個不一樣的URL處臨時保存     處理方式：重定向到臨時的URL
19 
20 304：請求的資源未更新     處理方式：丟棄
21 
22 400：非法請求     處理方式：丟棄
23 
24 401：未受權     處理方式：丟棄
25 
26 403：禁止     處理方式：丟棄
27 
28 404：沒有找到     處理方式：丟棄
29 
30 500：服務器內部錯誤  服務器遇到了一個不曾預料的情況，致使了它沒法完成對請求的處理。通常來講，這個問題都會在服務器端的源代碼出現錯誤時出現。
31 
32 501：服務器沒法識別  服務器不支持當前請求所須要的某個功能。當服務器沒法識別請求的方法，而且沒法支持其對任何資源的請求。
33 
34 502：錯誤網關  做爲網關或者代理工做的服務器嘗試執行請求時，從上游服務器接收到無效的響應。
35 
36 503：服務出錯   因爲臨時的服務器維護或者過載，服務器當前沒法處理請求。這個情況是臨時的，而且將在一段時間之後恢復。

HTTPError實例產生後會有一個code屬性，這就是是服務器發送的相關錯誤號。
由於urllib2能夠爲你處理重定向，也就是3開頭的代號能夠被處理，而且100-299範圍的號碼指示成功，因此你只能看到400-599的錯誤號碼。

下面咱們寫一個例子來感覺一下，捕獲的異常是HTTPError，它會帶有一個code屬性，就是錯誤代號，另外咱們又打印了reason屬性，這是它的父類URLError的屬性。

1 import urllib2
2  
3 req = urllib2.Request('http://blog.csdn.net/cqcre')
4 try:
5     urllib2.urlopen(req)
6 except urllib2.HTTPError, e:
7     print e.code
8     print e.reason

運行結果：

1 403
2 Forbidden

錯誤代號是403，錯誤緣由是Forbidden，說明服務器禁止訪問。

咱們知道，HTTPError的父類是URLError，根據編程經驗，父類的異常應當寫到子類異常的後面，若是子類捕獲不到，那麼能夠捕獲父類的異常，因此上述的代碼能夠這麼改寫

 1 import urllib2
 2  
 3 req = urllib2.Request('http://blog.csdn.net/cqcre')
 4 try:
 5     urllib2.urlopen(req)
 6 except urllib2.HTTPError, e:
 7     print e.code
 8 except urllib2.URLError, e:
 9     print e.reason
10 else:
11     print "OK"

若是捕獲到了HTTPError，則輸出code，不會再處理URLError異常。若是發生的不是HTTPError，則會去捕獲URLError異常，輸出錯誤緣由。

另外還能夠加入 hasattr屬性提早對屬性進行判斷，代碼改寫以下

 1 import urllib2
 2  
 3 req = urllib2.Request('http://blog.csdn.net/cqcre')
 4 try:
 5     urllib2.urlopen(req)
 6 except urllib2.URLError, e:
 7     if hasattr(e,"code"):
 8         print e.code
 9     if hasattr(e,"reason"):
10         print e.reason
11 else:
12     print "OK"

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。