urlparsehtml
解析url,將一個url解析爲六個部分分別爲
scheme、netloc、path、params、query、fragment。
例子以下:
from urllib.parse import urlparse result = urlparse('http://www.baidu.com/index.html;user?id=5#comment') print(type(result), result)
結果是<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')
python
urlunparsegit
它接受的參數是一個可迭代對象,可是它的長度必須是 6,不然會拋出參數數量不足或者過多的問題。
例子以下:
from urllib.parse import urlunparse data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment'] print(urlunparse(data))
結果輸出一個url爲http://www.baidu.com/index.html;user?a=6#comment
web
urlsplit網絡
這個和 urlparse() 方法很是類似,只不過它不會單獨解析 parameters 這一部分,只返回五個結果。ide
urlunsplit編碼
與 urlunparse() 相似,也是將連接的各個部分組合成完整連接的方法,傳入的也是一個可迭代對象,例如列表、元組等等,惟一的區別是,長度必須爲 5。url
urljoincode
生成連接還有另外一個方法,利用 urljoin() 方法咱們能夠提供一個 base_url(基礎連接),新的連接做爲第二個參數,方法會分析 base_url 的 scheme、netloc、path 這三個內容對新連接缺失的部分進行補充,做爲結果返回。htm
urlencode
咱們首先聲明瞭一個字典,將參數表示出來,而後調用 urlencode() 方法將其序列化爲 URL 標準 GET 請求參數。
parse_qs
有了序列化必然就有反序列化,若是咱們有一串 GET 請求參數,咱們利用 parse_qs() 方法就能夠將它轉回字典
parse_qsl
parse_qsl() 方法能夠將參數轉化爲元組組成的列表
quote
quote() 方法能夠將內容轉化爲 URL 編碼的格式,有時候 URL 中帶有中文參數的時候可能致使亂碼的問題,因此咱們能夠用這個方法將中文字符轉化爲 URL 編碼。
unquote
有了 quote() 方法固然還有 unquote() 方法,它能夠進行 URL 解碼。
文章參考連接:python3網絡爬蟲開發實戰