python3——urllib模塊的網絡爬蟲

時間 2019-11-05

標籤 python3 python urllib 模塊網絡爬蟲欄目 Python 简体版

原文原文鏈接

urllib

urllib模塊是python3的URL處理包html

其中：python

一、urllib.request主要是打開和閱讀urls

我的平時主要用的1：chrome

打開對應的URL：urllib.request.open(url)瀏覽器

用urllib.request.build_opener([handler, ...])，來假裝成對應的瀏覽器函數

import urllib
#要假裝成的瀏覽器(我這個是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#將要假裝成的瀏覽器添加到對應的http頭部
opener.addheaders=[headers]
#讀取相應的url
data = opener.open(url).read()
#將得到的html解碼爲utf-8
data=data.decode('utf-8')
print(data)

二、urllib.parse主要是用來解析url

主要方法：
ui

urllib.parse.urlparse(urlstring)url

功能：將對應的URL解析成六部分，並以元組的數據格式返回來。(在功能上和urlsplit()幾乎如出一轍)spa

import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())

對應的結果：code

ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html
htm

二、構建一個新的url——urllib.parse.urljoin(base, url)

參數：base:基本的URL連接

url:另外一個url

from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)

結果：http://www.cwi.nl/%7Eguido/FAQ.html

這個函數在爬蟲的時候應該方便多了，我以前用的是比較笨的方法直接字符串拼接

三、異常處理 urllib.error

用 try-except來捕捉異常

主要的錯誤方式就兩種 URLError和HTTPError

由於HTTPError是URLError的子類，因此URLError應該寫在HttpError後面,說白了就是找到兒子必定知道父親，找到父親，不必定知道兒子。

try:
    data=urllib.request.urlopen(url)
    print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
    print(e.code)
except urllib.error.URLError as e:
    print(e.reason)

結果：[WinError 10060] 因爲鏈接方在一段時間後沒有正確答覆或鏈接的主機沒有反應，鏈接嘗試失敗。

若是捕獲到了HTTPError，則輸出code，不會再處理URLError異常。若是發生的不是HTTPError，則會去捕獲URLError異常，輸出錯誤緣由