作一個最簡單的python爬蟲,使用爬蟲爬取:智聯招聘某招聘信息的DOMhtml
# py01v1.py from urllib import request # 使用urllib.request請求一個網頁的內容,並把內容打印出來 if __name__ == '__main__': # 定義須要爬的頁面 url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm" # 打開相應url並把頁面做爲返回 rsp = request.urlopen(url) # 按住Ctrl鍵不送,同時點擊urlopen,能夠查看文檔,有函數的具體參數和使用方法 # 把返回結果讀取出來 html = rsp.read() print(html)
上面簡單幾行代碼就能夠爬取頁面的HTML代碼了 右鍵運行,截圖以下 可是,咱們爬取到的代碼是不能自行顯示中文的,須要解碼處理 py02v1.py文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py02v1.pypython
# py02v1.py from urllib import request if __name__ == '__main__': url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm" rsp = request.urlopen(url) # 按住Ctrl鍵不送,同時點擊urlopen,能夠查看文檔,有函數的具體參數和使用方法 html = rsp.read() # 解碼 html = html.decode() print(html)
解碼後效果: 恭喜你,最簡單的爬蟲就已經學會啦! 若是運行失敗,多是 1.【爬取的鏈接失效】,更換最新的地址就能夠了 2.【Python環境問題】,這裏不作仔細介紹,請自行【百度】解決,也可聯繫博主 QQ:1370911284 微信:18322295195git
<hr> - 本筆記學習於圖靈學院python全棧課程 - 本筆記不容許任何我的和組織轉載github