urllib模塊是python3的URL處理包html
其中:python
我的平時主要用的1:chrome
打開對應的URL:urllib.request.open(url)瀏覽器
用urllib.request.build_opener([handler, ...]),來假裝成對應的瀏覽器函數
import urllib #要假裝成的瀏覽器(我這個是用的chrome) headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36') url='http://hotels.ctrip.com/' opener = urllib.request.build_opener() #將要假裝成的瀏覽器添加到對應的http頭部 opener.addheaders=[headers] #讀取相應的url data = opener.open(url).read() #將得到的html解碼爲utf-8 data=data.decode('utf-8') print(data)
主要方法:
ui
urllib.parse.
urlparse
(urlstring)url
功能:將對應的URL解析成六部分,並以元組的數據格式返回來。(在功能上和urlsplit
()幾乎如出一轍)spa
import urllib o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html') print(o) print(o.path) print(o.scheme) print(o.port) print(o.geturl())
對應的結果:code
ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html
htm
二、構建一個新的url——urllib.parse.
urljoin(base, url)
參數:base:基本的URL連接
url:另外一個url
from urllib.parse import urljoin a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html') print(a)
結果:http://www.cwi.nl/%7Eguido/FAQ.html
這個函數在爬蟲的時候應該方便多了,我以前用的是比較笨的方法直接字符串拼接
用 try-except來捕捉異常
主要的錯誤方式就兩種 URLError和HTTPError
由於HTTPError是URLError的子類,因此URLError應該寫在HttpError後面,說白了就是找到兒子必定知道父親,找到父親,不必定知道兒子。
try: data=urllib.request.urlopen(url) print(data.read().decode('utf-8')) except urllib.error.HTTPError as e: print(e.code) except urllib.error.URLError as e: print(e.reason)
結果:[WinError 10060] 因爲鏈接方在一段時間後沒有正確答覆或鏈接的主機沒有反應,鏈接嘗試失敗。
若是捕獲到了HTTPError,則輸出code,不會再處理URLError異常。若是發生的不是HTTPError,則會去捕獲URLError異常,輸出錯誤緣由