問題描述
初學python,在用python中的urllib.request.urlopen()和urllib.request.urlretrieve方法打開網頁時,有些網站會拋出異常: HTTP Error 403:Forbiddenhtml
問題緣由
網站對爬蟲的操做進行了限制python
解決方法
假裝成瀏覽器,web
headers = {'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'} req=urllib.request.Request(url=target_url,headers=headers) urllib.request.urlopen(req).read()
import urllib.request opener = urllib.request.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] urllib.request.install_opener(opener) urllib.request.urlretrieve("type URL here", "path/file_name")
基礎用法以下:瀏覽器
1.urlopen()方法
urllib.urlopen(url[, data[, proxies]]) :建立一個表示遠程url的類文件對象,而後像本地文件同樣操做這個類文件對象來獲取遠程數據。
參數url表示遠程數據的路徑,通常是網址;
參數data表示以post方式提交到url的數據(玩過web的人應該知道提交數據的兩種方式:post與get。若是你不清楚,也沒必要太在乎,通常狀況下不多用到這個參數);
參數proxies用於設置代理。
urlopen返回 一個類文件對象,它提供了以下方法:
read() , readline() , readlines() , fileno() , close() :這些方法的使用方式與文件對象徹底同樣;
info():返回一個httplib.HTTPMessage 對象,表示遠程服務器返回的頭信息
getcode():返回Http狀態碼。若是是http請求,200表示請求成功完成;404表示網址未找到;
geturl():返回請求的url;服務器
import urllib url = "http://www.baidu.com/" #urlopen() sock = urllib.urlopen(url) htmlCode = sock.read() sock.close fp = open("e:/1.html","wb") fp.write(htmlCode) fp.close #urlretrieve() urllib.urlretrieve(url, 'e:/2.html')
2.urlretrieve方法
直接將遠程數據下載到本地。函數
urllib.urlretrieve(url[, filename[, reporthook[, data]]])
參數說明:
url:外部或者本地url
filename:指定了保存到本地的路徑(若是未指定該參數,urllib會生成一個臨時文件來保存數據);
reporthook:是一個回調函數,當鏈接上服務器、以及相應的數據塊傳輸完畢的時候會觸發該回調。咱們能夠利用這個回調函數來顯示當前的下載進度。
data:指post到服務器的數據。該方法返回一個包含兩個元素的元組(filename, headers),filename表示保存到本地的路徑,header表示服務器的響應頭。
下面經過例子來演示一下這個方法的使用,這個例子將新浪首頁的html抓取到本地,保存在D:/sina.html文件中,同時顯示下載的進度。post
import urllib def callbackfunc(blocknum, blocksize, totalsize): '''回調函數 @blocknum: 已經下載的數據塊 @blocksize: 數據塊的大小 @totalsize: 遠程文件的大小 ''' percent = 100.0 * blocknum * blocksize / totalsize if percent > 100: percent = 100 print "%.2f%%"% percent url = 'http://www.sina.com.cn' local = 'd:\\sina.html' urllib.urlretrieve(url, local, callbackfunc)