經過GET請求獲取返回的網頁,其中加入了User-agent信息,否則會拋出"HTTP Error 403: Forbidden"異常,html
由於有些網站爲了防止這種沒有User-agent信息的訪問,會驗證請求信息中的UserAgent(它的信息包括硬件平臺、系統軟件、應用軟件和用戶我的偏好),若是UserAgent存在異常或者是不存在,那麼此次請求將會被拒絕。python
#coding=utf-8 import urllib2 import re #使用Python2.7 def getHtml(url,user_agent="wswp",num_retries=2): #下載網頁,若是下載失敗從新下載兩次 print '開始下載網頁:',url headers = {"User-agent":user_agent} # headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0', # 'cookie': cookie # } request = urllib2.Request(url,headers=headers) try: html = urllib2.urlopen(request).read() #GET請求 except urllib2.URLError as e: print "下載失敗:",e.reason html = None if num_retries > 0: if hasattr(e,'code') and 500 <= e.code < 600: return getHtml(url,num_retries-1) return html if __name__ == '__main__': html = getHtml("http://www.baidu.com") print html print "結束"
... cookie