Python scrapy框架用21行代碼寫出一個爬蟲

時間 2019-12-07

標籤 python scrapy 框架代碼寫出一個爬蟲欄目 Python 简体版

原文原文鏈接

開發環境:Pycharm 2017.1(目前最新)
開發框架: Scrapy 1.3.3(目前最新)css

目標

爬取線報網站,並把內容保存到items.json裏html

頁面分析

根據上圖咱們能夠發現內容都在類爲post這個div裏
下面放出post的代碼json

<div class="post">
<!-- baidu_tc block_begin: {"action": "DELETE"} -->
<div class="date"><span>04月</span><span class="f">07日</span></div><!-- baidu_tc block_end -->
<h2><a href="http://www.abckg.com/193.html" title="4月7日 淘金幣淘里程領取京東簽到" rel="bookmark" target="_blank">4月7日 淘金幣淘里程領取京東簽到</a><span>已結束</span></h2>
<h6>發佈日期: 2017-04-07 | 分類: <a href="http://www.abckg.com/xunibi">虛擬幣</a>   |  瀏覽:125177
</h6><div class="intro"><p>淘金幣一鍵領取 http://021.tw/t/ https://www.chaidu.com/App/Web/Taobao-Coin/ 【電腦端30金幣】 https://taojinbi.taobao.com/inde ... auto_take=true 【手機端30金幣】 http://h5.m.taobao...</p></div></div>

實現方法

1.定義items併發

class DemoItem(scrapy.Item):
    id = scrapy.Field()
    title = scrapy.Field()
    href = scrapy.Field()
    content = scrapy.Field()

2.新建一個爬蟲名爲test框架

# -*- coding: utf-8 -*-
import scrapy
from demo.items import DemoItem
from scrapy.http import Request

class TestSpider(scrapy.Spider):
    #定義爬蟲的名字和須要爬取的網址
    name = "test"
    allowed_domains = ["www.abckg.com"]
    start_urls = ['http://www.abckg.com/']

    def parse(self, response):
        for resp in response.css('.post'):
            #實例化item
            item = DemoItem()
            #把獲取到的內容保存到item內
            item['href'] = resp.css('h2 a::attr(href)').extract()
            item['title'] = resp.css('h2 a::text').extract()
            item['content'] = resp.css('.intro p::text').extract()
            yield item
            
        #下面是多頁面的爬取方法
        urls = response.css('.pageinfo a::attr(href)').extract()
        for url in urls:
            yield Request(url, callback=self.parse)
        categorys = response.css('.menu li a::attr(href)').extract()
        for ct in categorys:
            yield Request(ct, callback=self.parse)

3.修改settings.py,添加如下代碼dom