python----urllib模塊

時間 2019-11-17

標籤 python urllib 模塊欄目 Python 简体版

原文原文鏈接

urllib

官方文檔：https://docs.python.org/3/library/urllib.htmlhtml

Py2.x：python

Urllib庫
Urllin2庫

Py3.x：緩存

Urllib庫

變化：服務器

在Pytho2.x中使用import urllib2——-對應的，在Python3.x中會使用import urllib.request，urllib.error。
在Pytho2.x中使用import urllib——-對應的，在Python3.x中會使用import urllib.request，urllib.error，urllib.parse。
在Pytho2.x中使用import urlparse——-對應的，在Python3.x中會使用import urllib.parse。
在Pytho2.x中使用import urlopen——-對應的，在Python3.x中會使用import urllib.request.urlopen。
在Pytho2.x中使用import urlencode——-對應的，在Python3.x中會使用import urllib.parse.urlencode。
在Pytho2.x中使用import urllib.quote——-對應的，在Python3.x中會使用import urllib.request.quote。
在Pytho2.x中使用cookielib.CookieJar——-對應的，在Python3.x中會使用http.CookieJar。
在Pytho2.x中使用urllib2.Request——-對應的，在Python3.x中會使用urllib.request.Request。

urlopen(url,data,timeout) 函數

打開一個url的方法，返回一個文件對象，而後能夠進行相似文件對象的操做cookie

1 import urllib.request
2 req = urllib.request.urlopen('http://www.baidu.com')
3 print(req.read())

　　read() , readline() , readlines() , fileno() , close() 函數

　　info()：返回一個httplib.HTTPMessage 對象，表示遠程服務器返回的頭信息。編碼

　　getcode()：返回Http狀態碼，若是是http請求，200表示請求成功完成;404表示網址未找到。url

　　geturl()：返回請求的url。spa

urlretrieve(url,filename,reporthook,data)函數

下載url定位到的html文件,不寫路徑filename則會被存爲臨時文件能夠用 urllib.urlcleanup() 來清理緩存code

1 file_name = urllib.request.urlretrieve('http://www.baidu.com','%s/baidu.html'%BASE_DIR)

urlencode和parse_qs函數　　

參數的解碼和編碼函數

1 import urllib.parse
2 dic = {'name':'melon','age':18}
3 data = urllib.parse.urlencode(dic)
4 
5 print(data)

urlparse和urlsplit函數

將urlstr解析成各個組件

1 import urllib.request
2 import urllib.parse
3 url = "http://www.baidu.com"
4 parsed = urllib.parse.urlparse(url)
5 print(parsed)
6 #輸出：ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='', fragment='')

urljoin（baseurl,newurl,allowFrag=None）函數　　

將url的根域名和新url拼合成一個完整的url

1 import urllib.parse
2 url = "http://www.baidu.com"
3 new_path = urllib.parse.urljoin(url,"index.html")
4 print(new_path)
5 #輸出：http://www.baidu.com/index.html