開發環境:
Pycharm 2017.1
(目前最新)
開發框架:Scrapy 1.3.3
(目前最新)css
爬取線報網站,並把內容保存到items.json裏html
根據上圖咱們能夠發現內容都在類爲post
這個div
裏
下面放出post的代碼json
<div class="post"> <!-- baidu_tc block_begin: {"action": "DELETE"} --> <div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end --> <h2><a href="http://www.abckg.com/193.html" title="4月7日 淘金幣淘里程領取京東簽到" rel="bookmark" target="_blank">4月7日 淘金幣淘里程領取京東簽到</a><span>已結束</span></h2> <h6>發佈日期: 2017-04-07 | 分類: <a href="http://www.abckg.com/xunibi">虛擬幣</a> | 瀏覽:125177 </h6><div class="intro"><p>淘金幣一鍵領取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【電腦端30金幣】 https://taojinbi.taobao.com/inde ... auto_take=true 【手機端30金幣】 http://h5.m.taobao...</p></div></div>
1.定義items
併發
class DemoItem(scrapy.Item): id = scrapy.Field() title = scrapy.Field() href = scrapy.Field() content = scrapy.Field()
2.新建一個爬蟲名爲test
框架
# -*- coding: utf-8 -*- import scrapy from demo.items import DemoItem from scrapy.http import Request class TestSpider(scrapy.Spider): #定義爬蟲的名字和須要爬取的網址 name = "test" allowed_domains = ["www.abckg.com"] start_urls = ['http://www.abckg.com/'] def parse(self, response): for resp in response.css('.post'): #實例化item item = DemoItem() #把獲取到的內容保存到item內 item['href'] = resp.css('h2 a::attr(href)').extract() item['title'] = resp.css('h2 a::text').extract() item['content'] = resp.css('.intro p::text').extract() yield item #下面是多頁面的爬取方法 urls = response.css('.pageinfo a::attr(href)').extract() for url in urls: yield Request(url, callback=self.parse) categorys = response.css('.menu li a::attr(href)').extract() for ct in categorys: yield Request(ct, callback=self.parse)
3.修改settings.py
,添加如下代碼dom
FEED_EXPORT_ENCODING = 'utf-8'
打開cmd
輸入scrapy
scrapy crawl test -o items.json
若是屢次運行該爬蟲,不會覆蓋原有的內容,而是追加數據(好像是scrapy
的bug
)ide
1.定時運行爬蟲,當檢查到網站更新時獲取新數據併發郵件通知
2.檢測數據是否重複post