Python爬蟲教程-02-使用urlopen

時間 2020-05-08

原文原文鏈接

Spider-02-使用urlopen

作一個最簡單的python爬蟲，使用爬蟲爬取：智聯招聘某招聘信息的DOMhtml

urllib

包含模塊 - urllib.request：打開和讀取urls - urllib.error：包含urllib.request產生的常見錯誤，使用try捕捉 - urllib.parse：包含解析url的方法 - urllib.robotparse：解析robots.txt文件 robots：機器人協議，放在網站的開頭，供給爬蟲讀取，當爬蟲讀到robots以後，就知道那些是容許爬取的數據，哪些是禁止爬取的數據（爬蟲道德問題：1.不準過頻繁爬取 2.不準爬取禁止內容）
案例v1 （使用PyCharm開發工具，配置python解釋器，建立python文件） - 我把代碼放在github了，能夠直接下載，地址： - py01v1.py文件：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py01v1.py - request.py文檔文件：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/request.py

# py01v1.py
   from urllib import request
   
   # 使用urllib.request請求一個網頁的內容，並把內容打印出來
   if __name__ == '__main__':
   
       # 定義須要爬的頁面
       url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"
       # 打開相應url並把頁面做爲返回
       rsp = request.urlopen(url)
       # 按住Ctrl鍵不送，同時點擊urlopen，能夠查看文檔，有函數的具體參數和使用方法

       # 把返回結果讀取出來
       html = rsp.read()

       print(html)

上面簡單幾行代碼就能夠爬取頁面的HTML代碼了 右鍵運行，截圖以下 可是，咱們爬取到的代碼是不能自行顯示中文的，須要解碼處理 py02v1.py文件：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py02v1.pypython

# py02v1.py
   from urllib import request
  
   if __name__ == '__main__':
   
       url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"
       rsp = request.urlopen(url)
       # 按住Ctrl鍵不送，同時點擊urlopen，能夠查看文檔，有函數的具體參數和使用方法

       html = rsp.read()
       # 解碼
       html = html.decode()

       print(html)

解碼後效果： 恭喜你，最簡單的爬蟲就已經學會啦！ 若是運行失敗，多是 1.【爬取的鏈接失效】，更換最新的地址就能夠了 2.【Python環境問題】，這裏不作仔細介紹，請自行【百度】解決，也可聯繫博主 QQ：1370911284 微信：18322295195git