轉載css
摘要: 只用 python3, 只用 urllibhtml
若只使用python3.X, 下面能夠不看了, 記住有個urllib的庫就好了python
python2.X 有這些庫名可用: urllib, urllib2, urllib3, httplib, httplib2, requests安全
python3.X 有這些庫名可用: urllib, urllib3, httplib2, requestsruby
二者都有的urllib3和requests, 它們不是標準庫. urllib3 提供線程安全鏈接池和文件post支持,與urllib及urllib2的關係不大. requests 自稱HTTP for Humans, 使用更簡潔方便cookie
urllib和urllib2的主要區別:工具
urllib官方文檔的幾個例子post
使用帶參數的GET方法取回URL
>>> import urllib >>> params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0}) >>> f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query?%s" % params) >>> print f.read() 使用POST方法 >>> import urllib >>> params = urllib.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0}) >>> f = urllib.urlopen("http://www.musi-cal.com/cgi-bin/query", params) >>> print f.read() 使用HTTP代理,自動跟蹤重定向 >>> import urllib >>> proxies = {'http': 'http://proxy.example.com:8080/'} >>> opener = urllib.FancyURLopener(proxies) >>> f = opener.open("http://www.python.org") >>> f.read() 不使用代理 >>> import urllib >>> opener = urllib.FancyURLopener({}) >>> f = opener.open("http://www.python.org/") >>> f.read()
urllib2的幾個官方文檔的例子:ui
GET一個URL >>> import urllib2 >>> f = urllib2.urlopen('http://www.python.org/') >>> print f.read() 使用基本的HTTP認證 import urllib2 auth_handler = urllib2.HTTPBasicAuthHandler() auth_handler.add_password(realm='PDQ Application', uri='https://mahler:8092/site-updates.py', user='klem', passwd='kadidd!ehopper') opener = urllib2.build_opener(auth_handler) urllib2.install_opener(opener) urllib2.urlopen('http://www.example.com/login.html') build_opener() 默認提供不少處理程序, 包括代理處理程序, 代理默認會被設置爲環境變量所提供的. 一個使用代理的例子 proxy_handler = urllib2.ProxyHandler({'http': 'http://www.example.com:3128/'}) proxy_auth_handler = urllib2.ProxyBasicAuthHandler() proxy_auth_handler.add_password('realm', 'host', 'username', 'password') opener = urllib2.build_opener(proxy_handler, proxy_auth_handler) opener.open('http://www.example.com/login.html') 添加HTTP請求頭部 import urllib2 req = urllib2.Request('http://www.example.com/') req.add_header('Referer', 'http://www.python.org/') r = urllib2.urlopen(req) 更改User-agent import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] opener.open('http://www.example.com/')
** httplib 和 httplib2 ** httplib 是http客戶端協議的實現,一般不直接使用, urllib是以httplib爲基礎 httplib2 是第三方庫, 比httplib有更多特性url
這裏urllib成了一個包, 此包分紅了幾個模塊,
urllib.request 用於打開和讀取URL, urllib.error 用於處理前面request引發的異常, urllib.parse 用於解析URL, urllib.robotparser用於解析robots.txt文件
python2.X 中的 urllib.urlopen()被廢棄, urllib2.urlopen()至關於python3.X中的urllib.request.urlopen()
幾個官方例子:
GET一個URL
>>> import urllib.request >>> with urllib.request.urlopen('http://www.python.org/') as f: ... print(f.read(300)) PUT一個請求 import urllib.request DATA=b'some data' req = urllib.request.Request(url='http://localhost:8080', data=DATA,method='PUT') with urllib.request.urlopen(req) as f: pass print(f.status) print(f.reason) 基本的HTTP認證 import urllib.request auth_handler = urllib.request.HTTPBasicAuthHandler() auth_handler.add_password(realm='PDQ Application', uri='https://mahler:8092/site-updates.py', user='klem', passwd='kadidd!ehopper') opener = urllib.request.build_opener(auth_handler) urllib.request.install_opener(opener) urllib.request.urlopen('http://www.example.com/login.html') 使用proxy proxy_handler = urllib.request.ProxyHandler({'http': 'http://www.example.com:3128/'}) proxy_auth_handler = urllib.request.ProxyBasicAuthHandler() proxy_auth_handler.add_password('realm', 'host', 'username', 'password') opener = urllib.request.build_opener(proxy_handler, proxy_auth_handler) opener.open('http://www.example.com/login.html') 添加頭部 import urllib.request req = urllib.request.Request('http://www.example.com/') req.add_header('Referer', 'http://www.python.org/') r = urllib.request.urlopen(req) 更改User-agent import urllib.request opener = urllib.request.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] opener.open('http://www.example.com/') 使用GET時設置URL的參數 >>> import urllib.request >>> import urllib.parse >>> params = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0}) >>> url = "http://www.musi-cal.com/cgi-bin/query?%s" % params >>> with urllib.request.urlopen(url) as f: ... print(f.read().decode('utf-8')) ... 使用POST時設置參數 >>> import urllib.request >>> import urllib.parse >>> data = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0}) >>> data = data.encode('ascii') >>> with urllib.request.urlopen("http://requestb.in/xrbl82xr", data) as f: ... print(f.read().decode('utf-8')) ... 指定proxy >>> import urllib.request >>> proxies = {'http': 'http://proxy.example.com:8080/'} >>> opener = urllib.request.FancyURLopener(proxies) >>> with opener.open("http://www.python.org") as f: ... f.read().decode('utf-8') ... 不使用proxy, 覆蓋環境變量的proxy >>> import urllib.request >>> opener = urllib.request.FancyURLopener({}) >>> with opener.open("http://www.python.org/") as f: ... f.read().decode('utf-8') ...
python2.X中的httplib被重命名爲 http.client
使用 2to3 工具轉換源碼時, 會自動處理這幾個庫的導入
** 總的來講, 使用python3, 記住只有urllib, 想要更簡潔好用就用requests, 但不夠通用 **
參考: http://www.hacksparrow.com/python-difference-between-urllib-and-urllib2.html
http://blog.csdn.net/lxlzhn/article/details/10474281
http://www.cnblogs.com/wly923/archive/2013/05/07/3057122.html
http://stackoverflow.com/questions/2018026/should-i-use-urllib-urllib2-or-requests
http://stackoverflow.com/questions/3305250/python-urllib-vs-httplib
http://hustcalm.me/blog/2013/11/14/httplib-httplib2-urllib-urllib2-whats-the-difference/