Python爬蟲學習——獲取網頁

時間 2019-12-09

原文原文鏈接

經過GET請求獲取返回的網頁，其中加入了User-agent信息，否則會拋出"HTTP Error 403: Forbidden"異常，html

由於有些網站爲了防止這種沒有User-agent信息的訪問，會驗證請求信息中的UserAgent(它的信息包括硬件平臺、系統軟件、應用軟件和用戶我的偏好)，若是UserAgent存在異常或者是不存在,那麼此次請求將會被拒絕。python

#coding=utf-8
import urllib2
import re

#使用Python2.7
def getHtml(url,user_agent="wswp",num_retries=2):		#下載網頁，若是下載失敗從新下載兩次
	print '開始下載網頁：',url
	headers = {"User-agent":user_agent}
#	headers = {
#   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0',
#   'cookie': cookie
#	}
	request = urllib2.Request(url,headers=headers)
	try:
	    html = urllib2.urlopen(request).read()			#GET請求
	except urllib2.URLError as e:
		print "下載失敗：",e.reason
		html = None
		if num_retries > 0:
			if hasattr(e,'code') and 500 <= e.code < 600:
				return getHtml(url,num_retries-1)
	return html

if __name__ == '__main__':
	html = getHtml("http://www.baidu.com")
	print html
	print "結束"