python爬蟲系列(1.1-urllib模塊經常使用方法的介紹)

時間 2019-11-16

標籤 python 爬蟲系列 1.1 urllib 模塊經常使用方法介紹欄目 Python 简体版

原文原文鏈接

1、關於`urllib`中經常使用方法的介紹

一、urlopen網絡請求html

urlopen方法是網絡請求的方法,默認是get請求,若是傳遞了data是post請求python

from urllib import request

if __name__ == "__main__":
    response = request.urlopen('http://www.baidu.com')
    print(response.read())
複製代碼

二、urlretrieve下載文件網絡

from urllib import request

if __name__ == "__main__":
    # 下載整個網頁
    request.urlretrieve('http://www.baidu.com', 'baidu.html')
    # 下載圖片
    request.urlretrieve('http://www.baidu.com/img/bd_logo1.png', 'baidu.png')
複製代碼

2、關於編碼的處理

一、urlencode將字典類型數據轉換爲parsed模式post

from urllib import parse

if __name__ == "__main__":
    dict1 = {
        "name": "hello",
        "age": "20",
        "gender": "man"
    }
    re = parse.urlencode(dict1)
    print(re) # name=hello&age=20&gender=man
複製代碼

二、parse_qs和parse_qsl反序列化編碼

from urllib import parse

if __name__ == "__main__":
    dict1 = {
        "name": "hello",
        "age": "20",
        "gender": "man"
    }
    re = parse.urlencode(dict1)
    print(re)
    print(parse.parse_qs(re))
複製代碼

3、切割`url`的方法

一、urlsplit和urlparse方法url

from urllib import request, parse

if __name__ == "__main__":
    url = 'http://www.baidu.com?name=hello&age=20'
    print(parse.urlsplit(url))
    print(parse.urlparse(url))

# 輸出
# SplitResult(scheme='http', netloc='www.baidu.com', path='', query='name=hello&age=20', fragment='')
# ParseResult(scheme='http', netloc='www.baidu.com', path='', params='', query='name=hello&age=20', fragment='')
複製代碼