Python2.7 urlparse

時間 2019-11-08

標籤 python2.7 python urlparse 欄目 Python 简体版

原文原文鏈接

轉http://my.oschina.net/guol/blog/95699php

urlparse模塊主要是把url拆分爲6部分，並返回元組。而且能夠把拆分後的部分再組成一個url。主要有函數有urljoin、urlsplit、urlunsplit、urlparse等。 python

urlparse.urlparse(urlstring[, scheme[, allow_fragments]])服務器

將urlstring解析成6個部分，它從urlstring中取得URL，並返回元組 (scheme, netloc, path, parameters, query, fragment)，可是其實是基於namedtuple，是tuple的子類。它支持經過名字屬性或者索引訪問的部分URL，每一個組件是一串字符，也有多是空的。組件不能被解析爲更小的部分，%後面的也不會被解析，分割符號並非解析結果的一部分，除非用斜線轉義，注意，返回的這個元組很是有用，例如能夠用來肯定網絡協議(HTTP、FTP等等 )、服務器地址、文件路徑，等等。網絡

 
        >>>  
        import 
        urlparse 
       
 
        >>> url 
        = 
        urlparse.urlparse( 
        'http://www.baidu.com/index.php?username=guol' 
        ) 
       
 
        >>>  
        print 
        url 
       
 
        ParseResult(scheme 
        = 
        'http' 
        , netloc 
        = 
        'www.baidu.com' 
        , path 
        = 
        '/index.php' 
        , params 
        = 
        ' 
        ', query=' 
        username 
        = 
        guol 
        ', fragment=' 
        ') 
       
 
        >>>  
        print 
        url.netloc 
       
 
        www.baidu.com 
       
 
        >>> 
       

urlparse.urlunparse(parts)
函數

從一個元組構建一個url，元組相似urlparse返回的，它接收元組(scheme, netloc, path, parameters, query, fragment)後，會從新組成一個具備正確格式的URL，以便供Python的其餘HTML解析模塊使用。url

 
        >>>  
        import 
        urlparse 
       
 
        >>> url 
        = 
        urlparse.urlparse( 
        'http://www.baidu.com/index.php?username=guol' 
        ) 
       
 
        >>>  
        print 
        url 
       
 
        ParseResult(scheme 
        = 
        'http' 
        , netloc 
        = 
        'www.baidu.com' 
        , path 
        = 
        '/index.php' 
        , params 
        = 
        ' 
        ', query=' 
        username 
        = 
        guol 
        ', fragment=' 
        ') 
       
 
        >>> u 
        = 
        urlparse.urlunparse(url) 
       
 
        >>>  
        print 
        u 
       
 
        http: 
        / 
        / 
        www.baidu.com 
        / 
        index.php?username 
        = 
        guol 
       

urlparse.urlsplit(urlstring[, scheme[, allow_fragments]])spa

主要是分析urlstring，返回一個包含5個字符串項目的元組：協議、位置、路徑、查詢、片斷。allow_fragments爲False時，該元組的組後一個項目老是空，無論urlstring有沒有片斷，省略項目的也是空。urlsplit()和urlparse()差很少。不過它不切分URL的參數。適用於遵循RFC2396的URL，每一個路徑段都支持參數。這樣返回的元組就只有5個元素。.net

 
        >>>  
        import 
        urlparse 
       
 
        >>> url 
        = 
        urlparse.urlparse( 
        'http://www.baidu.com/index.php?username=guol' 
        ) 
       
 
        >>>  
        print 
        url 
       
 
        ParseResult(scheme 
        = 
        'http' 
        , netloc 
        = 
        'www.baidu.com' 
        , path 
        = 
        '/index.php' 
        , params 
        = 
        ' 
        ', query=' 
        username 
        = 
        guol 
        ', fragment=' 
        ') 
       
 
        >>> url 
        = 
        urlparse.urlsplit( 
        'http://www.baidu.com/index.php?username=guol' 
        ) 
       
 
        >>>  
        print 
        url 
       
 
        SplitResult(scheme 
        = 
        'http' 
        , netloc 
        = 
        'www.baidu.com' 
        , path 
        = 
        '/index.php' 
        , query 
        = 
        'username=guol' 
        , fragment 
        = 
        '') 
       

urlparse.urlunsplit(parts)code

urlunsplit使用urlsplit()返回的值組合成一個urlblog

urlparse.urljoin(base, url[, allow_fragments])

urljoin主要是拼接URL，它以base做爲其基地址，而後與url中的相對地址相結合組成一個絕對URL地址。函數urljoin在經過爲URL基地址附加新的文件名的方式來處理同一位置處的若干文件的時候格外有用。須要注意的是，若是基地址並不是以字符/結尾的話，那麼URL基地址最右邊部分就會被這個相對路徑所替換。若是但願在該路徑中保留末端目錄，應確保URL基地址以字符/結尾。

 
        >>>  
        import 
        urlparse 
       
 
        >>> urlparse.urljoin( 
        'http://www.oschina.com/tieba' 
        , 
        'index.php' 
        ) 
       
 
        'http://www.oschina.com/index.php' 
       
 
        >>> urlparse.urljoin( 
        'http://www.oschina.com/tieba/' 
        , 
        'index.php' 
        ) 
       
 
        'http://www.oschina.com/tieba/index.php' 
       

1. Python2.7 urlparse學習
2. [轉載]Python2.7 urlparse學習
3. urlparse
4. python的urlparse
5. Python urlparse模塊
6. ModuleNotFoundError: No module named 'urlparse'
7. Python之urlparse模塊
8. Python的url解析庫--urlparse
9. Python3 URL解析庫 — urlparse
10. python 中 urlparse 模塊介紹
更多相關文章...

相關標籤/搜索

python2.7+robotframework

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。