解析連接

解析連接

  1. urlparsehtml

    解析url,將一個url解析爲六個部分分別爲

    scheme、netloc、path、params、query、fragment。

    例子以下:
    from urllib.parse import urlparse result = urlparse('http://www.baidu.com/index.html;user?id=5#comment') print(type(result), result)
    結果是<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')python

  2. urlunparsegit

    它接受的參數是一個可迭代對象,可是它的長度必須是 6,不然會拋出參數數量不足或者過多的問題。
    例子以下:

    from urllib.parse import urlunparse data = ['http', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment'] print(urlunparse(data))
    結果輸出一個url爲http://www.baidu.com/index.html;user?a=6#commentweb

  3. urlsplit網絡

    這個和 urlparse() 方法很是類似,只不過它不會單獨解析 parameters 這一部分,只返回五個結果。ide

  4. urlunsplit編碼

    與 urlunparse() 相似,也是將連接的各個部分組合成完整連接的方法,傳入的也是一個可迭代對象,例如列表、元組等等,惟一的區別是,長度必須爲 5。url

  5. urljoincode

    生成連接還有另外一個方法,利用 urljoin() 方法咱們能夠提供一個 base_url(基礎連接),新的連接做爲第二個參數,方法會分析 base_url 的 scheme、netloc、path 這三個內容對新連接缺失的部分進行補充,做爲結果返回。htm

  6. urlencode

    咱們首先聲明瞭一個字典,將參數表示出來,而後調用 urlencode() 方法將其序列化爲 URL 標準 GET 請求參數。

  7. parse_qs

    有了序列化必然就有反序列化,若是咱們有一串 GET 請求參數,咱們利用 parse_qs() 方法就能夠將它轉回字典

  8. parse_qsl

    parse_qsl() 方法能夠將參數轉化爲元組組成的列表

  9. quote

    quote() 方法能夠將內容轉化爲 URL 編碼的格式,有時候 URL 中帶有中文參數的時候可能致使亂碼的問題,因此咱們能夠用這個方法將中文字符轉化爲 URL 編碼。

  10. unquote

    有了 quote() 方法固然還有 unquote() 方法,它能夠進行 URL 解碼。

文章參考連接:python3網絡爬蟲開發實戰

相關文章
相關標籤/搜索