Python3.5 最好使用venvpython
另外須要兩個必要的庫:git
$ pip install requests $ pip install pyquery
咱們第一個應用實現的功能主要以下:bash
訪問一個頁面,這裏咱們以 糗事百科(http://www.qiushibaike.com/) 爲例網絡
得到頁面的內容優化
進行簡單的處理,得到咱們須要的內容spa
import requests from pyquery import PyQuery as pq __author__ = 'BONFY CHEN <foreverbonfy@163.com>' SITE = 'http://www.qiushibaike.com/' r = requests.get(SITE) assert r.status_code == 200 d = pq(r.text) contents = d("div .article") for item in contents: i = pq(item) content = i("div .content").text() print(content)
利用 requests.get 得到頁面code
assert 斷言,若是網絡問題 訪問不到就退出圖片
contents 利用 pyquery 得到全部文章 後續 讀取 div class = "content" 的爲文本內容 (這裏沒有處理圖片後續的講解中會完善)
print 輸出
補充模仿瀏覽器的Headers,詳情見 https://github.com/bonfy/xiaolinBot
歡迎關注及一塊兒交流
請期待下一篇: 代碼優化