官方文檔:https://docs.python.org/3/library/urllib.htmlhtml
Py2.x:python
Urllib
庫Urllin2
庫Py3.x:緩存
Urllib
庫變化:服務器
import urllib2
——-對應的,在Python3.x中會使用import urllib.request
,urllib.error
。import urllib
——-對應的,在Python3.x中會使用import urllib.request
,urllib.error
,urllib.parse
。import urlparse
——-對應的,在Python3.x中會使用import urllib.parse
。import urlopen
——-對應的,在Python3.x中會使用import urllib.request.urlopen
。import urlencode
——-對應的,在Python3.x中會使用import urllib.parse.urlencode
。import urllib.quote
——-對應的,在Python3.x中會使用import urllib.request.quote
。cookielib.CookieJar
——-對應的,在Python3.x中會使用http.CookieJar
。urllib2.Request
——-對應的,在Python3.x中會使用urllib.request.Request
。打開一個url的方法,返回一個文件對象,而後能夠進行相似文件對象的操做cookie
1 import urllib.request 2 req = urllib.request.urlopen('http://www.baidu.com') 3 print(req.read())
read() , readline() , readlines() , fileno() , close() 函數
info():返回一個httplib.HTTPMessage 對象,表示遠程服務器返回的頭信息。編碼
getcode():返回Http狀態碼,若是是http請求,200表示請求成功完成;404表示網址未找到。url
geturl():返回請求的url。spa
下載url定位到的html文件,不寫路徑filename則會被存爲臨時文件能夠用 urllib.urlcleanup() 來清理緩存code
1 file_name = urllib.request.urlretrieve('http://www.baidu.com','%s/baidu.html'%BASE_DIR)
參數的解碼和編碼函數
1 import urllib.parse 2 dic = {'name':'melon','age':18} 3 data = urllib.parse.urlencode(dic) 4 5 print(data)
將urlstr解析成各個組件
1 import urllib.request 2 import urllib.parse 3 url = "http://www.baidu.com" 4 parsed = urllib.parse.urlparse(url) 5 print(parsed) 6 #輸出:ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='', fragment='')
將url的根域名和新url拼合成一個完整的url
1 import urllib.parse 2 url = "http://www.baidu.com" 3 new_path = urllib.parse.urljoin(url,"index.html") 4 print(new_path) 5 #輸出:http://www.baidu.com/index.html
*******************************************************