python中 urllib, urllib2, httplib, httplib2 幾個庫的區別

時間 2019-11-07

標籤 python urllib urllib2 httplib httplib2 幾個區別欄目 Python 简体版

原文原文鏈接

若只使用python3.X, 下面能夠不看了, 記住有個urllib的庫就好了html

python2.X 有這些庫名可用: urllib, urllib2, urllib3, httplib, httplib2, requestspython

python3.X 有這些庫名可用: urllib, urllib3, httplib2, requests安全

二者都有的urllib3和requests, 它們不是標準庫. urllib3 提供線程安全鏈接池和文件post支持,與urllib及urllib2的關係不大. requests 自稱HTTP for Humans, 使用更簡潔方便cookie

對於python2.X:

urllib和urllib2的主要區別:工具

urllib2能夠接受Request對象爲URL設置頭信息,修改用戶代理,設置cookie等, urllib只能接受一個普通的URL.
urllib提供一些比較原始基礎的方法而urllib2沒有這些, 好比 urlencode

urllib官方文檔的幾個例子post

使用帶參數的GET方法取回URL
>>> import urllib
>>> params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
>>> f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query?%s" % params)
>>> print f.read()
使用POST方法
>>> import urllib
>>> params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
>>> f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query", params)
>>> print f.read()
使用HTTP代理,自動跟蹤重定向
>>> import urllib
>>> proxies = {'http': 'http://proxy.example.com:8080/'}
>>> opener = urllib.FancyURLopener(proxies)
>>> f = opener.open("http://www.python.org")
>>> f.read()
不使用代理
>>> import urllib
>>> opener = urllib.FancyURLopener({})
>>> f = opener.open("http://www.python.org/")
>>> f.read()

urllib2的幾個官方文檔的例子:ui

GET一個URL
>>> import urllib2
>>> f = urllib2.urlopen('http://www.python.org/')
>>> print f.read()

使用基本的HTTP認證
import urllib2
auth_handler = urllib2.HTTPBasicAuthHandler()
auth_handler.add_password(realm='PDQ Application',
                          uri='https://mahler:8092/site-updates.py',
                          user='klem',
                          passwd='kadidd!ehopper')
opener = urllib2.build_opener(auth_handler)
urllib2.install_opener(opener)
urllib2.urlopen('http://www.example.com/login.html')
build_opener() 默認提供不少處理程序, 包括代理處理程序, 代理默認會被設置爲環境變量所提供的.

一個使用代理的例子
proxy_handler = urllib2.ProxyHandler({'http': 'http://www.example.com:3128/'})
proxy_auth_handler = urllib2.ProxyBasicAuthHandler()
proxy_auth_handler.add_password('realm', 'host', 'username', 'password')

opener = urllib2.build_opener(proxy_handler, proxy_auth_handler)
opener.open('http://www.example.com/login.html')

添加HTTP請求頭部
import urllib2
req = urllib2.Request('http://www.example.com/')
req.add_header('Referer', 'http://www.python.org/')
r = urllib2.urlopen(req)

更改User-agent
import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.example.com/')

** httplib 和 httplib2 ** httplib 是http客戶端協議的實現,一般不直接使用, urllib是以httplib爲基礎 httplib2 是第三方庫, 比httplib有更多特性url

對於python3.X:

這裏urllib成了一個包, 此包分紅了幾個模塊,spa

urllib.request 用於打開和讀取URL, 
urllib.error 用於處理前面request引發的異常, 
urllib.parse 用於解析URL, 
urllib.robotparser用於解析robots.txt文件

python2.X 中的 urllib.urlopen()被廢棄, urllib2.urlopen()至關於python3.X中的urllib.request.urlopen().net

幾個官方例子:

GET一個URL
>>> import urllib.request
>>> with urllib.request.urlopen('http://www.python.org/') as f:
...     print(f.read(300))

PUT一個請求
import urllib.request
DATA=b'some data'
req = urllib.request.Request(url='http://localhost:8080', data=DATA,method='PUT')
with urllib.request.urlopen(req) as f:
    pass
print(f.status)
print(f.reason)

基本的HTTP認證
import urllib.request
auth_handler = urllib.request.HTTPBasicAuthHandler()
auth_handler.add_password(realm='PDQ Application',
                          uri='https://mahler:8092/site-updates.py',
                          user='klem',
                          passwd='kadidd!ehopper')
opener = urllib.request.build_opener(auth_handler)
urllib.request.install_opener(opener)
urllib.request.urlopen('http://www.example.com/login.html')

使用proxy
proxy_handler = urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'})
proxy_auth_handler = urllib.request.ProxyBasicAuthHandler()
proxy_auth_handler.add_password('realm', 'host', 'username', 'password')

opener = urllib.request.build_opener(proxy_handler, proxy_auth_handler)
opener.open('http://www.example.com/login.html')

添加頭部
import urllib.request
req = urllib.request.Request('http://www.example.com/')
req.add_header('Referer', 'http://www.python.org/')
r = urllib.request.urlopen(req)

更改User-agent
import urllib.request
opener = urllib.request.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.example.com/')

使用GET時設置URL的參數
>>> import urllib.request
>>> import urllib.parse
>>> params = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
>>> url = "http://www.musi-cal.com/cgi-bin/query?%s" % params
>>> with urllib.request.urlopen(url) as f:
...     print(f.read().decode('utf-8'))
...

使用POST時設置參數
>>> import urllib.request
>>> import urllib.parse
>>> data = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
>>> data = data.encode('ascii')
>>> with urllib.request.urlopen("http://requestb.in/xrbl82xr", data) as f:
...     print(f.read().decode('utf-8'))
...

指定proxy
>>> import urllib.request
>>> proxies = {'http': 'http://proxy.example.com:8080/'}
>>> opener = urllib.request.FancyURLopener(proxies)
>>> with opener.open("http://www.python.org") as f:
...     f.read().decode('utf-8')
...
不使用proxy, 覆蓋環境變量的proxy
>>> import urllib.request
>>> opener = urllib.request.FancyURLopener({})
>>> with opener.open("http://www.python.org/") as f:
...     f.read().decode('utf-8')
...

python2.X中的httplib被重命名爲 http.client

使用 2to3 工具轉換源碼時, 會自動處理這幾個庫的導入

** 總的來講, 使用python3, 記住只有urllib, 想要更簡潔好用就用requests, 但不夠通用 **

參考: http://www.hacksparrow.com/python-difference-between-urllib-and-urllib2.html

http://blog.csdn.net/lxlzhn/article/details/10474281

http://www.codefrom.com/paper/%E6%B7%B1%E5%85%A5%E7%90%86%E8%A7%A3urllib%E3%80%81urllib2%E5%8F%8Arequests

http://www.cnblogs.com/wly923/archive/2013/05/07/3057122.html

http://stackoverflow.com/questions/2018026/should-i-use-urllib-urllib2-or-requests

http://stackoverflow.com/questions/3305250/python-urllib-vs-httplib

http://hustcalm.me/blog/2013/11/14/httplib-httplib2-urllib-urllib2-whats-the-difference/