python—網絡爬蟲(爬取網頁的通用代碼框架)

python—網絡爬蟲(爬取網頁的通用代碼框架)python

理解Requests庫的異常服務器

異常 說明
requests.ConnectionError 網絡鏈接錯誤異常,如DNS查詢失敗,拒絕鏈接等
requests.HTTPError HTTP錯誤異常
requests.URLRequired URL缺失異常
requests.TooManyRedirects 超過最大重定向次數,產生重定向異常
requests.ConnectTimeout 鏈接遠程服務器超時異常
requests.Timeout  請求URL超時,產生超時異常
r.raise_for_status() 若是不是200,產生異常requests.HTTPError

 

爬取網頁的通用代碼框架:網絡

>>> import requests
>>> def getHTMLText(url):
... try:
...   r=requests.get(url,timeout=30)
...   r.raise_for_status()
...    r.encoding=r.apparent_encoding
...    return r.text
... except:
...   return "產生異常"
...
>>> if __name__=='__main__':
...    url="http://www.baidu.com"
...    print(getHTMLText(url))app

相關文章
相關標籤/搜索