爬蟲——urllib.request包

時間 2019-11-26

標籤爬蟲 urllib.request urllib request 欄目網絡爬蟲简体版

原文原文鏈接

1、引用包html

　　import urllib.request緩存

2、經常使用方法post

　　（1）urllib.request.urlretrieve(網址，本地文件存儲地址)：直接下載網頁到本地url

　　　　urllib.request.urlretrieve("http://www.baidu.com","D:\1.html")spa

　　（2）urllib.request.urlcleanup()：清理緩存code

　　（3）查看網頁基本內容htm

　　　　file = urllib.request.urlopen("http://www.baidu.com")blog

　　　　print(file.info()) #查看網頁信息utf-8

　　　　print(file.code())#查看網頁狀態碼get

　　　　print(file.geturl())#獲取當前網頁的url

　　（4）設置網頁超時時間

　　　　urllib.request.urlopen("http"//www.baidu.com",timeout=1)

　　　　timeout就是網頁的超時時間設定

3、POST請求

import urllib.request
import urllib.parse 
post_url = "http://www.baidu.com"
post_data = urllib.parse.urlencode{
    "username":"username"
    "password":"password"
    }.encode("utf-8")

req = urllib.request.Request(post_url,post_data)

4、異常處理

import urllib.request
import urllib.error

try:
    urllib.request.urlopen("http://www.baidu.com")
except urllib.error.URLError as e:
    if hasattr(e,"code"):
        print(e.code)
    if hasattr(e,"reason"):
        print(e.reason)

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。