【背景知識】html
Scrapy 1.1 開始支持 Python3。(2016上半年)git
Scrapy 1.5 再也不支持 Python 3.3。(2017下半年)github
Scrapy 官網:https://scrapy.org/架構
Scrapy GitHub:https://github.com/scrapy/scrapyscrapy
Scrapy pypi:https://pypi.org/project/Scrapy/ide
Scrapy 官方文檔:https://docs.scrapy.org/en/latest/函數
Scrapy 中文網 1.5 文檔:http://www.scrapyd.cn/doc/url
【架構圖】設計
walker 看起來新圖只是舊圖的細化,無實質性差別。
【FAQ】
同時運行多個 spider:Running multiple spiders in the same process
多 spider 下配置每一個 spider 穿越的 middleware 可以使用 custom_settings 配置。可參考:How to set different scrapy-settings for different spiders?
Scrapy url 參數化去重可經過繼承 RFPDupeFilter 類,重寫 request_fingerprint 函數實現。可參考:關於Scrapy去重邏輯分析
【相關連接】
*** walker ***