python3 HTTP Error 403:Forbidden

時間 2019-12-05

標籤 python3 python http error forbidden 欄目 Python 简体版

原文原文鏈接

問題描述
初學python，在用python中的urllib.request.urlopen()和urllib.request.urlretrieve方法打開網頁時，有些網站會拋出異常: HTTP Error 403:Forbiddenhtml

問題緣由
網站對爬蟲的操做進行了限制python

解決方法
假裝成瀏覽器，web

headers = {'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'}
req=urllib.request.Request(url=target_url,headers=headers) 
urllib.request.urlopen(req).read()

import urllib.request
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
urllib.request.install_opener(opener)
urllib.request.urlretrieve("type URL here", "path/file_name")

基礎用法以下：瀏覽器

1.urlopen()方法
urllib.urlopen(url[, data[, proxies]]) :建立一個表示遠程url的類文件對象，而後像本地文件同樣操做這個類文件對象來獲取遠程數據。
參數url表示遠程數據的路徑，通常是網址；
參數data表示以post方式提交到url的數據(玩過web的人應該知道提交數據的兩種方式：post與get。若是你不清楚，也沒必要太在乎，通常狀況下不多用到這個參數)；
參數proxies用於設置代理。
urlopen返回一個類文件對象，它提供了以下方法：
read() , readline() , readlines() , fileno() , close() ：這些方法的使用方式與文件對象徹底同樣;
info()：返回一個httplib.HTTPMessage 對象，表示遠程服務器返回的頭信息
getcode()：返回Http狀態碼。若是是http請求，200表示請求成功完成;404表示網址未找到；
geturl()：返回請求的url；服務器

import urllib
url = "http://www.baidu.com/"
#urlopen()
sock = urllib.urlopen(url)
htmlCode = sock.read()
sock.close
fp = open("e:/1.html","wb")
fp.write(htmlCode)
fp.close
#urlretrieve()
urllib.urlretrieve(url, 'e:/2.html')

2.urlretrieve方法
直接將遠程數據下載到本地。函數

urllib.urlretrieve(url[, filename[, reporthook[, data]]])
參數說明：
url：外部或者本地url
filename：指定了保存到本地的路徑（若是未指定該參數，urllib會生成一個臨時文件來保存數據）；
reporthook：是一個回調函數，當鏈接上服務器、以及相應的數據塊傳輸完畢的時候會觸發該回調。咱們能夠利用這個回調函數來顯示當前的下載進度。
data：指post到服務器的數據。該方法返回一個包含兩個元素的元組(filename, headers)，filename表示保存到本地的路徑，header表示服務器的響應頭。
下面經過例子來演示一下這個方法的使用，這個例子將新浪首頁的html抓取到本地，保存在D:/sina.html文件中，同時顯示下載的進度。post

import urllib
def callbackfunc(blocknum, blocksize, totalsize):
    '''回調函數
    @blocknum: 已經下載的數據塊
    @blocksize: 數據塊的大小
    @totalsize: 遠程文件的大小
    '''
    percent = 100.0 * blocknum * blocksize / totalsize
    if percent > 100:
        percent = 100
    print "%.2f%%"% percent
url = 'http://www.sina.com.cn'
local = 'd:\\sina.html'
urllib.urlretrieve(url, local, callbackfunc)

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。