【pyspider】啓動爬蟲後在results頁面沒有看到結果

今天根據書上的介紹寫了一個簡單爬蟲,爬取豌豆莢裏面APP的基本信息,可是在調試結果正常後,發現跳轉到result頁面後沒有看到結果。app

後來上網查了一下,發現要在def detail_page(self, response)方法的前面加上@config(priority=2)url

即:spa

@config(priority=2)
def detail_page(self,response):
title=response.doc('p > [itemprop="name"]').text()
updateDate=response.doc('[itemprop="datePublished"]').attr.datetime
version=response.doc('div[class="download-wp"]>a').attr('data-app-vname')
developer=response.doc('dd > span[itemprop="name"]').text()
size=response.doc('.infos-list > dd>meta[itemprop="fileSize"]').attr.content
downloadLink=response.doc('.qr-info > a').attr.href
packagename=response.doc('div[class="download-wp"]>a').attr('data-app-pname')


return {
"title": title,
"updateDate": updateDate,
"version":version,
"developer":developer,
"size":size,
"downloadLink":downloadLink,
"packagename":packagename

}.net

 

果真在再次啓動後能夠在result頁面看到結果。調試

後來就去搜索@config(priority=2) 這個是什麼意思,發現原來這個是優先級設置。數字越小越先執行。code

而後方法前面還能夠作如下這些設置:blog

  • @every(minutes=24*60, seconds=0) 這個設置是告訴scheduler(調度器)on_start方法天天執行一次。
  • @config(age=10 * 24 * 60 * 60) 這個設置告訴scheduler(調度器)這個request(請求)過時時間是10天,10天內再遇到這個請求直接忽略。這個參數也能夠在self.crawl(url, age=10*24*60*60) 和 crawl_config中設置。

這些相關知識來自https://blog.csdn.net/qq_33052539/article/details/52850199it

相關文章
相關標籤/搜索