今日概要python
今日詳情app
1.遞歸爬取解析多頁頁面數據框架
- 需求:將糗事百科全部頁碼的做者和段子內容數據進行爬取切持久化存儲dom
- 需求分析:每個頁面對應一個url,則scrapy工程須要對每個頁碼對應的url依次發起請求,而後經過對應的解析方法進行做者和段子內容的解析。異步
實現方案:scrapy
1.將每個頁碼對應的url存放到爬蟲文件的起始url列表(start_urls)中。(不推薦)ide
2.使用Request方法手動發起請求。(推薦)函數
代碼展現:post
2.五大核心組件工做流程:url
3.post請求發送
- 問題:在以前代碼中,咱們歷來沒有手動的對start_urls列表中存儲的起始url進行過請求的發送,可是起始url的確是進行了請求的發送,那這是如何實現的呢?
- 解答:實際上是由於爬蟲文件中的爬蟲類繼承到了Spider父類中的start_requests(self)這個方法,該方法就能夠對start_urls列表中的url發起請求:
【注意】該方法默認的實現,是對起始的url發起get請求,若是想發起post請求,則須要子類重寫該方法。
-方法: 重寫start_requests方法,讓其發起post請求: