上回講到,爬取了豆瓣軍事類圖書的第一頁內容,本回主要實現爬取剩餘頁面的內容,實現思路均參照Scrapy文檔html
def parse(self, response): #####省略##### #查看頁面源碼,找到」後一頁「的連接 next_page = response.xpath('//span[@class="next"]/a/@href').extract_first() print("&&&&&&",next_page) if next_page is not None: yield response.follow(next_page,self.parse)
找到頁面中」後一頁「的連接的內容,只需解析出該內容,而後調用follow函數便可了git
按照上篇說的,執行命令scrapy crawl dbbook -o junshibook89-1.json
將結果存入json文件
可是!爬蟲值爬了start_urls,並未爬取剩餘頁面內容
只需將開頭allowed_domains = ['https://book.douban.com/tag/軍事']
註釋掉或者刪掉便可
從新執行,查看生成的junshibook89-1.json文件json
git地址:https://www.trustie.net/projects/3753/repository/dbbooksegmentfault