Python3網絡爬蟲(三)：urllib.error異常

時間 2019-11-09

標籤 python3 python 網絡爬蟲 urllib.error urllib error 異常欄目 Python 简体版

原文原文鏈接

原做者及原文連接： blog.csdn.net/c406495762/…html

運行平臺：Windows Python版本：Python3.x IDE：Sublime text3python

一.urllib.error

urllib.error能夠接收有urllib.request產生的異常。urllib.error有兩個方法，URLError和HTTPError。以下圖所示：bash

URLError是OSError的一個子類，HTTPError是URLError的一個子類，服務器上HTTP的響應會返回一個狀態碼，根據這個HTTP狀態碼，咱們能夠知道咱們的訪問是否成功。例如第二個筆記中提到的200狀態碼，表示請求成功，再好比常見的404錯誤等。服務器

1.URLError

讓咱們先看下URLError的異常，建立文件urllib_test06.py，編寫以下代碼：函數

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

if __name__ == "__main__":
    #一個不存在的鏈接
    url = "http://www.iloveyou.com/"
    req = request.Request(url)
    try:
        response = request.urlopen(req)
        html = response.read().decode('utf-8')
        print(html)
    except error.URLError as e:
        print(e.reason)
複製代碼

咱們能夠看到以下運行結果：學習

2.HTTPError

再看下HTTPError異常，建立文件urllib_test07.py，編寫以下代碼：ui

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

if __name__ == "__main__":
    #一個不存在的鏈接
    url = "http://www.douyu.com/Jack_Cui.html"
    req = request.Request(url)
    try:
        responese = request.urlopen(req)
        # html = responese.read()
    except error.HTTPError as e:
        print(e.code)
複製代碼

運行以後，咱們能夠看到404，這說明請求的資源沒有在服務器上找到，www.douyu.com這個服務器是存在的，可是咱們要查找的Jack_Cui.html資源是沒有的，因此拋出404異常。url

二.URLError和HTTPError混合使用

最後值得注意的一點是，若是想用HTTPError和URLError一塊兒捕獲異常，那麼須要將HTTPError放在URLError的前面，由於HTTPError是URLError的一個子類。若是URLError放在前面，出現HTTP異常會先響應URLError，這樣HTTPError就捕獲不到錯誤信息了。spa

若是不用上面的方法，也可使用hasattr函數判斷URLError含有的屬性，若是含有reason屬性代表是URLError，若是含有code屬性代表是HTTPError。建立文件urllib_test08.py，編寫代碼以下：.net

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import error

if __name__ == "__main__":
    #一個不存在的鏈接
    url = "http://www.douyu.com/Jack_Cui.html"
    req = request.Request(url)
    try:
        responese = request.urlopen(req)
    except error.URLError as e:
        if hasattr(e, 'code')
            print("HTTPError")
            print(e.code)
        elif hasattr(e, 'reason')
            print("URLError")
            print(e.reason)
複製代碼