小白學 Python 爬蟲（13）：urllib 基礎使用（三）

from urllib import request, error

# 訪問明顯不存在的地址，報錯：Not Found
try:
    response = request.urlopen('https://www.geekdigging.com/aa')
except error.URLError as e:
    print(e.reason)

# 訪問超時，報錯：timed out
try:
    response = request.urlopen('https://www.baidu.com', timeout=0.001)
except error.URLError as e:
    print(e.reason)複製代碼

這裏咱們訪問了一個明顯不存在的連接和限定了極短的超時時間，這裏會拋出異常，可是咱們捕獲了 URLError 這個異常，運行結果以下：

Not Found
timed out複製代碼

程序沒有直接拋出異常終止運行，而是輸出了上面這個異常，經過這樣的操做，咱們能夠避免程序異常終止，同時還能夠對這個異常作出針對性的處理。

此外，異常捕捉拋出的異常不必定都是字符串類型，好比訪問超時的報錯，咱們將打印結果的代碼稍做改動：

from urllib import request, error
import socket

# 異常類型示例
try:
    response = request.urlopen('https://www.baidu.com', timeout=0.001)
except error.URLError as e:
    print(type(e.reason))
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT')複製代碼

結果以下：

<class 'socket.timeout'>
TIME OUT複製代碼

HTTPError

它是 URLError 的子類，專門用來處理 HTTP 請求錯誤，好比認證請求失敗等。它有以下 3 個屬性。

code：返回HTTP狀態碼，好比404表示網頁不存在，500表示服務器內部錯誤等。
reason：同父類同樣，用於返回錯誤的緣由。
headers：返回請求頭。

仍是先看一個最簡單的示例：

from urllib import request, error

# 訪問明顯不存在的地址，使用 HTTPError 捕捉異常
try:
    response = request.urlopen('https://www.geekdigging.com/aa')
except error.HTTPError as e:
    print(e.reason, e.code, e.headers, sep='\n')複製代碼

運行結果以下：

Not Found
404
Date: Sun, 01 Dec 2019 15:11:48 GMT
Content-Type: text/html
Content-Length: 49307
Connection: close
Server: tencent-cos
Last-Modified: Sun, 01 Dec 2019 15:03:24 GMT
X-NWS-UUID-VERIFY: c89959eb27b89a0fb1c0326d1b2e7171
Accept-Ranges: bytes
ETag: "1bb6cc2c28a5621cf0c3238107edc229"
x-cos-error-code: NoSuchKey
x-cos-error-detail-Key: aa
x-cos-error-message: The specified key does not exist.
x-cos-request-id: NWRlM2Q4MzRfMzNhNzAzMDlfYTljZl8yNGU1NTgx
x-cos-trace-id: OGVmYzZiMmQzYjA2OWNhODk0NTRkMTBiOWVmMDAxODc0OWRkZjk0ZDM1NmI1M2E2MTRlY2MzZDhmNmI5MWI1OTQ5YWUxMjNkYTk3NzdjZmZlMDQzOTgxOThkOTNlOWFkOGJiN2YzOGQ5MDdjNGY0ODQ1MGIzYjUyMzg2NjFhNzc=
X-Daa-Tunnel: hop_count=2
X-NWS-LOG-UUID: 7c3fe80b-af9a-4e59-969b-10c8b3963a1d
X-Cache-Lookup: Hit From Upstream
X-Cache-Lookup: Hit From Upstream複製代碼

由於 URLError 是 HTTPError 的父類，因此能夠先選擇捕獲子類的錯誤，再去捕獲父類的錯誤，這樣對異常的處理更具針對性。

注意： 捕捉異常通常先捕捉子類異常，再捕捉父類異常。

因此咱們能夠更改下前面的異常捕捉的代碼進行一些優化：

# 優化異常捕捉代碼
try:
    response = request.urlopen('https://www.geekdigging.com/aa')
except error.HTTPError as e:
    print(e.reason, e.code, e.headers, sep='\n')
except error.URLError as e:
    print(e.reason)
else:
    print('Request Success!')複製代碼