xiaolinBot(Twitter笑話集錦爬蟲Bot) Step1-最簡爬蟲

Step1 - 最簡爬蟲

環境準備

Python3.5 最好使用venvpython

另外須要兩個必要的庫:git

  • requests : 一個封裝了HTTP服務的python庫github

  • pyquery : 相似Jquery,使用很是方便瀏覽器

$ pip install requests
$ pip install pyquery

開始

實現第一個應用

咱們第一個應用實現的功能主要以下:bash

  1. 訪問一個頁面,這裏咱們以 糗事百科(http://www.qiushibaike.com/) 爲例網絡

  2. 得到頁面的內容優化

  3. 進行簡單的處理,得到咱們須要的內容spa

import requests
from pyquery import PyQuery as pq

__author__ = 'BONFY CHEN <foreverbonfy@163.com>'


SITE = 'http://www.qiushibaike.com/'
r = requests.get(SITE)
assert r.status_code == 200
d = pq(r.text)
contents = d("div .article")
for item in contents:
    i = pq(item)
    content = i("div .content").text()
    print(content)

結果

結果

簡單分析

  1. 利用 requests.get 得到頁面code

  2. assert 斷言,若是網絡問題 訪問不到就退出圖片

  3. contents 利用 pyquery 得到全部文章 後續 讀取 div class = "content" 的爲文本內容 (這裏沒有處理圖片後續的講解中會完善)

  4. print 輸出

完整代碼

補充模仿瀏覽器的Headers,詳情見 https://github.com/bonfy/xiaolinBot

歡迎關注及一塊兒交流

請期待下一篇: 代碼優化

相關文章
相關標籤/搜索