05_urllib(1)之發送請求

前言:html


 

在Python 2中,有urllib和urllib2兩個庫來實現請求的發送。而在Python 3中,已經不存在urllib2這個庫了,統一爲urllib,其官方文檔連接爲:https://docs.python.org/3/library/urllib.htmlpython

首先,瞭解一下urllib庫,它是Python內置的HTTP請求庫,也就是說不須要額外安裝便可使用。它包含以下4個模塊。nginx

  • request:它是最基本的HTTP請求模塊,能夠用來模擬發送請求。就像在瀏覽器裏輸入網址而後回車同樣,只須要給庫方法傳入URL以及額外的參數,就能夠模擬實現這個過程了。
  • error:異常處理模塊,若是出現請求錯誤,咱們能夠捕獲這些異常,而後進行重試或其餘操做以保證程序不會意外終止。
  • parse:一個工具模塊,提供了許多URL處理方法,好比拆分、解析、合併等。
  • robotparser:主要是用來識別網站的robots.txt文件,而後判斷哪些網站能夠爬,哪些網站不能夠爬,它其實用得比較少。

這裏重點講解一下前3個模塊。git


 

使用urllib的request模塊,咱們能夠方便地實現請求的發送並獲得響應,本節就來看下它的具體用法。github

1. urlopen()

urllib.request模塊提供了最基本的構造HTTP請求的方法,利用它能夠模擬瀏覽器的一個請求發起過程,同時它還帶有處理受權驗證(authenticaton)、重定向(redirection)、瀏覽器Cookies以及其餘內容。json

下面咱們來看一下它的強大之處。這裏以Python官網爲例,咱們來把這個網頁抓下來:瀏覽器

運行結果如圖3-1所示。服務器

圖3-1 運行結果cookie

這裏咱們只用了兩行代碼,便完成了Python官網的抓取,輸出了網頁的源代碼。獲得源代碼以後呢?咱們想要的連接、圖片地址、文本信息不就均可以提取出來了嗎?網絡

接下來,看看它返回的究竟是什麼。利用type()方法輸出響應的類型:

輸出結果以下:

 

能夠發現,它是一個HTTPResposne類型的對象。它主要包含read()readinto()getheader(name)getheaders()fileno()等方法,以及msgversionstatusreasondebuglevelclosed等屬性。

獲得這個對象以後,咱們把它賦值爲response變量,而後就能夠調用這些方法和屬性,獲得返回結果的一系列信息了。

例如,調用read()方法能夠獲得返回的網頁內容,調用status屬性能夠獲得返回結果的狀態碼,如200表明請求成功,404表明網頁未找到等。

下面再經過一個實例來看看:

 

運行結果以下:

可見,前兩個輸出分別輸出了響應的狀態碼和響應的頭信息,最後一個輸出經過調用getheader()方法並傳遞一個參數Server獲取了響應頭中的Server值,結果是nginx,意思是服務器是用Nginx搭建的。

利用最基本的urlopen()方法,能夠完成最基本的簡單網頁的GET請求抓取。

若是想給連接傳遞一些參數,該怎麼實現呢?首先看一下urlopen()函數的API:

能夠發現,除了第一個參數能夠傳遞URL以外,咱們還能夠傳遞其餘內容,好比data(附加數據)、timeout(超時時間)等。

下面咱們詳細說明下這幾個參數的用法。

data參數

data參數是可選的。若是要添加該參數,而且若是它是字節流編碼格式的內容,即bytes類型,則須要經過bytes()方法轉化。另外,若是傳遞了這個參數,則它的請求方式就再也不是GET方式,而是POST方式。

下面用實例來看一下:

這裏咱們傳遞了一個參數word,值是hello。它須要被轉碼成bytes(字節流)類型。其中轉字節流採用了bytes()方法,該方法的第一個參數須要是str(字符串)類型,須要用urllib.parse模塊裏的urlencode()方法來將參數字典轉化爲字符串;第二個參數指定編碼格式,這裏指定爲utf8

這裏請求的站點是httpbin.org,它能夠提供HTTP請求測試。本次咱們請求的URL爲http://httpbin.org/post,這個連接能夠用來測試POST請求,它能夠輸出請求的一些信息,其中包含咱們傳遞的data參數。

運行結果以下:

咱們傳遞的參數出如今了form字段中,這代表是模擬了表單提交的方式,以POST方式傳輸數據。

timeout參數

timeout參數用於設置超時時間,單位爲秒,意思就是若是請求超出了設置的這個時間,尚未獲得響應,就會拋出異常。若是不指定該參數,就會使用全局默認時間。它支持HTTP、HTTPS、FTP請求。

下面用實例來看一下:

運行結果以下:

這裏咱們設置超時時間是1秒。程序1秒事後,服務器依然沒有響應,因而拋出了URLError異常。該異常屬於urllib.error模塊,錯誤緣由是超時。

所以,能夠經過設置這個超時時間來控制一個網頁若是長時間未響應,就跳過它的抓取。這能夠利用try except語句來實現,相關代碼以下:

這裏咱們請求了http://httpbin.org/get測試連接,設置超時時間是0.1秒,而後捕獲了URLError異常,接着判斷異常是socket.timeout類型(意思就是超時異常),從而得出它確實是由於超時而報錯,打印輸出了TIME OUT

運行結果以下:

按照常理來講,0.1秒內基本不可能獲得服務器響應,所以輸出了TIME OUT的提示。

經過設置timeout這個參數來實現超時處理,有時仍是頗有用的。

其餘參數

除了data參數和timeout參數外,還有context參數,它必須是ssl.SSLContext類型,用來指定SSL設置。

此外,cafilecapath這兩個參數分別指定CA證書和它的路徑,這個在請求HTTPS連接時會有用。

cadefault參數如今已經棄用了,其默認值爲False

前面講解了urlopen()方法的用法,經過這個最基本的方法,咱們能夠完成簡單的請求和網頁抓取。若需更加詳細的信息,能夠參見官方文檔:https://docs.python.org/3/library/urllib.request.html

2. Request

咱們知道利用urlopen()方法能夠實現最基本請求的發起,但這幾個簡單的參數並不足以構建一個完整的請求。若是請求中須要加入Headers等信息,就能夠利用更強大的Request類來構建。

首先,咱們用實例來感覺一下Request的用法:

能夠發現,咱們依然是用urlopen()方法來發送這個請求,只不過此次該方法的參數再也不是URL,而是一個Request類型的對象。經過構造這個數據結構,一方面咱們能夠將請求獨立成一個對象,另外一方面可更加豐富和靈活地配置參數。

下面咱們看一下Request能夠經過怎樣的參數來構造,它的構造方法以下:

  • 第一個參數url用於請求URL,這是必傳參數,其餘都是可選參數。
  • 第二個參數data若是要傳,必須傳bytes(字節流)類型的。若是它是字典,能夠先用urllib.parse模塊裏的urlencode()編碼。
  • 第三個參數headers是一個字典,它就是請求頭,咱們能夠在構造請求時經過headers參數直接構造,也能夠經過調用請求實例的add_header()方法添加。

    添加請求頭最經常使用的用法就是經過修改User-Agent來假裝瀏覽器,默認的User-Agent是Python-urllib,咱們能夠經過修改它來假裝瀏覽器。好比要假裝火狐瀏覽器,你能夠把它設置爲:  

  • 第四個參數origin_req_host指的是請求方的host名稱或者IP地址。
  • 第五個參數unverifiable表示這個請求是不是沒法驗證的,默認是False,意思就是說用戶沒有足夠權限來選擇接收這個請求的結果。例如,咱們請求一個HTML文檔中的圖片,可是咱們沒有自動抓取圖像的權限,這時unverifiable的值就是True`。
  • 第六個參數method是一個字符串,用來指示請求使用的方法,好比GET、POST和PUT等。

下面咱們傳入多個參數構建請求來看一下:

這裏咱們經過4個參數構造了一個請求,其中url即請求URL,headers中指定了User-AgentHost,參數dataurlencode()bytes()方法轉成字節流。另外,指定了請求方式爲POST。

運行結果以下:

觀察結果能夠發現,咱們成功設置了dataheadersmethod

另外,headers也能夠用add_header()方法來添加:

如此一來,咱們就能夠更加方便地構造請求,實現請求的發送啦。

3. 高級用法

在上面的過程當中,咱們雖然能夠構造請求,可是對於一些更高級的操做(好比Cookies處理、代理設置等),咱們該怎麼辦呢?

接下來,就須要更強大的工具Handler登場了。簡而言之,咱們能夠把它理解爲各類處理器,有專門處理登陸驗證的,有處理Cookies的,有處理代理設置的。利用它們,咱們幾乎能夠作到HTTP請求中全部的事情。

首先,介紹一下urllib.request模塊裏的BaseHandler類,它是全部其餘Handler的父類,它提供了最基本的方法,例如default_open()protocol_request()等。

接下來,就有各類Handler子類繼承這個BaseHandler類,舉例以下。

  • HTTPDefaultErrorHandler:用於處理HTTP響應錯誤,錯誤都會拋出HTTPError類型的異常。
  • HTTPRedirectHandler:用於處理重定向。
  • HTTPCookieProcessor:用於處理Cookies。
  • ProxyHandler:用於設置代理,默認代理爲空。
  • HTTPPasswordMgr:用於管理密碼,它維護了用戶名和密碼的表。
  • HTTPBasicAuthHandler:用於管理認證,若是一個連接打開時須要認證,那麼能夠用它來解決認證問題。

另外,還有其餘的Handler類,這裏就不一一列舉了,詳情能夠參考官方文檔:https://docs.python.org/3/library/urllib.request.html#urllib.request.BaseHandler

關於怎麼使用它們,如今先不用着急,後面會有實例演示。

另外一個比較重要的類就是OpenerDirector,咱們能夠稱爲Opener。咱們以前用過urlopen()這個方法,實際上它就是urllib爲咱們提供的一個Opener

那麼,爲何要引入Opener呢?由於須要實現更高級的功能。以前使用的Requesturlopen()至關於類庫爲你封裝好了極其經常使用的請求方法,利用它們能夠完成基本的請求,可是如今不同了,咱們須要實現更高級的功能,因此須要深刻一層進行配置,使用更底層的實例來完成操做,因此這裏就用到了Opener

Opener可使用open()方法,返回的類型和urlopen()一模一樣。那麼,它和Handler有什麼關係呢?簡而言之,就是利用Handler來構建Opener

下面用幾個實例來看看它們的用法。

驗證

有些網站在打開時就會彈出提示框,直接提示你輸入用戶名和密碼,驗證成功後才能查看頁面,如圖3-2所示。

圖3-2 驗證頁面

那麼,若是要請求這樣的頁面,該怎麼辦呢?藉助HTTPBasicAuthHandler就能夠完成,相關代碼以下:

這裏首先實例化HTTPBasicAuthHandler對象,其參數是HTTPPasswordMgrWithDefaultRealm對象,它利用add_password()添加進去用戶名和密碼,這樣就創建了一個處理驗證的Handler

接下來,利用這個Handler並使用build_opener()方法構建一個Opener,這個Opener在發送請求時就至關於已經驗證成功了。

接下來,利用Openeropen()方法打開連接,就能夠完成驗證了。這裏獲取到的結果就是驗證後的頁面源碼內容。

代理

在作爬蟲的時候,免不了要使用代理,若是要添加代理,能夠這樣作:

 

這裏咱們在本地搭建了一個代理,它運行在9743端口上。

這裏使用了ProxyHandler,其參數是一個字典,鍵名是協議類型(好比HTTP或者HTTPS等),鍵值是代理連接,能夠添加多個代理。

而後,利用這個Handler及build_opener()方法構造一個Opener,以後發送請求便可。

Cookies

Cookies的處理就須要相關的Handler了。

咱們先用實例來看看怎樣將網站的Cookies獲取下來,相關代碼以下:

首先,咱們必須聲明一個CookieJar對象。接下來,就須要利用HTTPCookieProcessor來構建一個Handler,最後利用build_opener()方法構建出Opener,執行open()函數便可。

運行結果以下:

能夠看到,這裏輸出了每條Cookie的名稱和值。

不過既然能輸出,那可不能夠輸出成文件格式呢?咱們知道Cookies實際上也是以文本形式保存的。

答案固然是確定的,這裏經過下面的實例來看看:

這時CookieJar就須要換成MozillaCookieJar,它在生成文件時會用到,是CookieJar的子類,能夠用來處理Cookies和文件相關的事件,好比讀取和保存Cookies,能夠將Cookies保存成Mozilla型瀏覽器的Cookies格式。

運行以後,能夠發現生成了一個cookies.txt文件,其內容以下:

另外,LWPCookieJar一樣能夠讀取和保存Cookies,可是保存的格式和MozillaCookieJar不同,它會保存成libwww-perl(LWP)格式的Cookies文件。

要保存成LWP格式的Cookies文件,能夠在聲明時就改成:

此時生成的內容以下:

由此看來,生成的格式仍是有比較大差別的。

那麼,生成了Cookies文件後,怎樣從文件中讀取並利用呢?

下面咱們以LWPCookieJar格式爲例來看一下:

能夠看到,這裏調用load()方法來讀取本地的Cookies文件,獲取到了Cookies的內容。不過前提是咱們首先生成了LWPCookieJar格式的Cookies,並保存成文件,而後讀取Cookies以後使用一樣的方法構建Handler和Opener便可完成操做。

運行結果正常的話,會輸出百度網頁的源代碼。

經過上面的方法,咱們能夠實現絕大多數請求功能的設置了。

這即是urllib庫中request模塊的基本用法,若是想實現更多的功能,能夠參考官方文檔的說明:https://docs.python.org/3/library/urllib.request.html#basehandler-objects

轉載於:靜覓 » [Python3網絡爬蟲開發實戰] 3.1.1-發送請求

相關文章
相關標籤/搜索