scrapy入門_2爬取豆瓣軍事類圖書（2）

時間 2019-12-06

原文原文鏈接

前言

上回講到，爬取了豆瓣軍事類圖書的第一頁內容，本回主要實現爬取剩餘頁面的內容，實現思路均參照Scrapy文檔html

代碼實現

def parse(self, response):
        #####省略#####
        #查看頁面源碼，找到」後一頁「的連接
        next_page = response.xpath('//span[@class="next"]/a/@href').extract_first()
        print("&&&&&&",next_page)
        if next_page is not None:
            yield response.follow(next_page,self.parse)

找到頁面中」後一頁「的連接的內容，只需解析出該內容，而後調用follow函數便可了git

編譯執行

按照上篇說的，執行命令scrapy crawl dbbook -o junshibook89-1.json將結果存入json文件
可是！爬蟲值爬了start_urls,並未爬取剩餘頁面內容
只需將開頭allowed_domains = ['https://book.douban.com/tag/軍事']註釋掉或者刪掉便可
從新執行，查看生成的junshibook89-1.json文件json

git地址：https://www.trustie.net/projects/3753/repository/dbbooksegmentfault

相關標籤/搜索