python爬蟲系列(1.1-urllib模塊經常使用方法的介紹)

1、關於urllib中經常使用方法的介紹

  • 一、urlopen網絡請求html

    urlopen方法是網絡請求的方法,默認是get請求,若是傳遞了datapost請求python

    from urllib import request
    
    if __name__ == "__main__":
        response = request.urlopen('http://www.baidu.com')
        print(response.read())
    複製代碼
  • 二、urlretrieve下載文件網絡

    from urllib import request
    
    if __name__ == "__main__":
        # 下載整個網頁
        request.urlretrieve('http://www.baidu.com', 'baidu.html')
        # 下載圖片
        request.urlretrieve('http://www.baidu.com/img/bd_logo1.png', 'baidu.png')
    複製代碼

2、關於編碼的處理

  • 一、urlencode將字典類型數據轉換爲parsed模式post

    from urllib import parse
    
    if __name__ == "__main__":
        dict1 = {
            "name": "hello",
            "age": "20",
            "gender": "man"
        }
        re = parse.urlencode(dict1)
        print(re) # name=hello&age=20&gender=man
    複製代碼
  • 二、parse_qsparse_qsl反序列化編碼

    from urllib import parse
    
    if __name__ == "__main__":
        dict1 = {
            "name": "hello",
            "age": "20",
            "gender": "man"
        }
        re = parse.urlencode(dict1)
        print(re)
        print(parse.parse_qs(re))
    複製代碼

3、切割url的方法

  • 一、urlspliturlparse方法url

    from urllib import request, parse
    
    if __name__ == "__main__":
        url = 'http://www.baidu.com?name=hello&age=20'
        print(parse.urlsplit(url))
        print(parse.urlparse(url))
    
    # 輸出
    # SplitResult(scheme='http', netloc='www.baidu.com', path='', query='name=hello&age=20', fragment='')
    # ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='name=hello&age=20', fragment='')
    複製代碼

4、更多關於python爬蟲文章能夠訪問

相關文章
相關標籤/搜索