python—網絡爬蟲(爬取網頁的通用代碼框架)python
理解Requests庫的異常服務器
異常 | 說明 |
requests.ConnectionError | 網絡鏈接錯誤異常,如DNS查詢失敗,拒絕鏈接等 |
requests.HTTPError | HTTP錯誤異常 |
requests.URLRequired | URL缺失異常 |
requests.TooManyRedirects | 超過最大重定向次數,產生重定向異常 |
requests.ConnectTimeout | 鏈接遠程服務器超時異常 |
requests.Timeout | 請求URL超時,產生超時異常 |
r.raise_for_status() | 若是不是200,產生異常requests.HTTPError |
爬取網頁的通用代碼框架:網絡
>>> import requests
>>> def getHTMLText(url):
... try:
... r=requests.get(url,timeout=30)
... r.raise_for_status()
... r.encoding=r.apparent_encoding
... return r.text
... except:
... return "產生異常"
...
>>> if __name__=='__main__':
... url="http://www.baidu.com"
... print(getHTMLText(url))app