#==>第一部分:基本配置<=== #一、項目名稱,默認的USER_AGENT由它來構成,也做爲日誌記錄的日誌名 BOT_NAME = 'Amazon' #二、爬蟲應用路徑 SPIDER_MODULES = ['Amazon.spiders'] NEWSPIDER_MODULE = 'Amazon.spiders' #三、客戶端User-Agent請求頭 #USER_AGENT = 'Amazon (+http://www.yourdomain.com)' #四、是否遵循爬蟲協議 # Obey robots.txt rules ROBOTSTXT_OBEY = False #五、是否支持cookie,cookiejar進行操做cookie,默認開啓 #COOKIES_ENABLED = False #六、Telnet用於查看當前爬蟲的信息,操做爬蟲等...使用telnet ip port ,而後經過命令操做 #TELNETCONSOLE_ENABLED = False #TELNETCONSOLE_HOST = '127.0.0.1' #TELNETCONSOLE_PORT = [6023,] #七、Scrapy發送HTTP請求默認使用的請求頭 #DEFAULT_REQUEST_HEADERS = { # 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', # 'Accept-Language': 'en', #} #===>第二部分:併發與延遲<=== #一、下載器總共最大處理的併發請求數,默認值16 #CONCURRENT_REQUESTS = 32 #二、每一個域名可以被執行的最大併發請求數目,默認值8 #CONCURRENT_REQUESTS_PER_DOMAIN = 16 #三、可以被單個IP處理的併發請求數,默認值0,表明無限制,須要注意兩點 #I、若是不爲零,那CONCURRENT_REQUESTS_PER_DOMAIN將被忽略,即併發數的限制是按照每一個IP來計算,而不是每一個域名 #II、該設置也影響DOWNLOAD_DELAY,若是該值不爲零,那麼DOWNLOAD_DELAY下載延遲是限制每一個IP而不是每一個域 #CONCURRENT_REQUESTS_PER_IP = 16 #四、若是沒有開啓智能限速,這個值就表明一個規定死的值,表明對同一網址延遲請求的秒數 #DOWNLOAD_DELAY = 3 #===>第三部分:智能限速/自動節流:AutoThrottle extension<=== #一:介紹 from scrapy.contrib.throttle import AutoThrottle #http://scrapy.readthedocs.io/en/latest/topics/autothrottle.html#topics-autothrottle 設置目標: 1、比使用默認的下載延遲對站點更好 2、自動調整scrapy到最佳的爬取速度,因此用戶無需本身調整下載延遲到最佳狀態。用戶只須要定義容許最大併發的請求,剩下的事情由該擴展組件自動完成 #二:如何實現? 在Scrapy中,下載延遲是經過計算創建TCP鏈接到接收到HTTP包頭(header)之間的時間來測量的。 注意,因爲Scrapy可能在忙着處理spider的回調函數或者沒法下載,所以在合做的多任務環境下準確測量這些延遲是十分苦難的。 不過,這些延遲仍然是對Scrapy(甚至是服務器)繁忙程度的合理測量,而這擴展就是以此爲前提進行編寫的。 #三:限速算法 自動限速算法基於如下規則調整下載延遲 #一、spiders開始時的下載延遲是基於AUTOTHROTTLE_START_DELAY的值 #二、當收到一個response,對目標站點的下載延遲=收到響應的延遲時間/AUTOTHROTTLE_TARGET_CONCURRENCY #三、下一次請求的下載延遲就被設置成:對目標站點下載延遲時間和過去的下載延遲時間的平均值 #四、沒有達到200個response則不容許下降延遲 #五、下載延遲不能變的比DOWNLOAD_DELAY更低或者比AUTOTHROTTLE_MAX_DELAY更高 #四:配置使用 #開啓True,默認False AUTOTHROTTLE_ENABLED = True #起始的延遲 AUTOTHROTTLE_START_DELAY = 5 #最小延遲 DOWNLOAD_DELAY = 3 #最大延遲 AUTOTHROTTLE_MAX_DELAY = 10 #每秒併發請求數的平均值,不能高於 CONCURRENT_REQUESTS_PER_DOMAIN或CONCURRENT_REQUESTS_PER_IP,調高了則吞吐量增大強姦目標站點,調低了則對目標站點更加」禮貌「 #每一個特定的時間點,scrapy併發請求的數目均可能高於或低於該值,這是爬蟲視圖達到的建議值而不是硬限制 AUTOTHROTTLE_TARGET_CONCURRENCY = 16.0 #調試 AUTOTHROTTLE_DEBUG = True CONCURRENT_REQUESTS_PER_DOMAIN = 16 CONCURRENT_REQUESTS_PER_IP = 16 #===>第四部分:爬取深度與爬取方式<=== #一、爬蟲容許的最大深度,能夠經過meta查看當前深度;0表示無深度 # DEPTH_LIMIT = 3 #二、爬取時,0表示深度優先Lifo(默認);1表示廣度優先FiFo # 後進先出,深度優先 # DEPTH_PRIORITY = 0 # SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleLifoDiskQueue' # SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.LifoMemoryQueue' # 先進先出,廣度優先 # DEPTH_PRIORITY = 1 # SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue' # SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue' #三、調度器隊列 # SCHEDULER = 'scrapy.core.scheduler.Scheduler' # from scrapy.core.scheduler import Scheduler #四、訪問URL去重 # DUPEFILTER_CLASS = 'step8_king.duplication.RepeatUrl' #===>第五部分:中間件、Pipelines、擴展<=== #一、Enable or disable spider middlewares # See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html #SPIDER_MIDDLEWARES = { # 'Amazon.middlewares.AmazonSpiderMiddleware': 543, #} #二、Enable or disable downloader middlewares # See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html DOWNLOADER_MIDDLEWARES = { # 'Amazon.middlewares.DownMiddleware1': 543, } #三、Enable or disable extensions # See http://scrapy.readthedocs.org/en/latest/topics/extensions.html #EXTENSIONS = { # 'scrapy.extensions.telnet.TelnetConsole': None, #} #四、Configure item pipelines # See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html ITEM_PIPELINES = { # 'Amazon.pipelines.CustomPipeline': 200, } #===>第六部分:緩存<=== """ 1. 啓用緩存 目的用於將已經發送的請求或相應緩存下來,以便之後使用 from scrapy.downloadermiddlewares.httpcache import HttpCacheMiddleware from scrapy.extensions.httpcache import DummyPolicy from scrapy.extensions.httpcache import FilesystemCacheStorage """ # 是否啓用緩存策略 # HTTPCACHE_ENABLED = True # 緩存策略:全部請求均緩存,下次在請求直接訪問原來的緩存便可 # HTTPCACHE_POLICY = "scrapy.extensions.httpcache.DummyPolicy" # 緩存策略:根據Http響應頭:Cache-Control、Last-Modified 等進行緩存的策略 # HTTPCACHE_POLICY = "scrapy.extensions.httpcache.RFC2616Policy" # 緩存超時時間 # HTTPCACHE_EXPIRATION_SECS = 0 # 緩存保存路徑 # HTTPCACHE_DIR = 'httpcache' # 緩存忽略的Http狀態碼 # HTTPCACHE_IGNORE_HTTP_CODES = [] # 緩存存儲的插件 # HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage' #===>第七部分:線程池<=== REACTOR_THREADPOOL_MAXSIZE = 10 #Default: 10 #scrapy基於twisted異步IO框架,downloader是多線程的,線程數是Twisted線程池的默認大小(The maximum limit for Twisted Reactor thread pool size.) #關於twisted線程池: http://twistedmatrix.com/documents/10.1.0/core/howto/threading.html #線程池實現:twisted.python.threadpool.ThreadPool twisted調整線程池大小: from twisted.internet import reactor reactor.suggestThreadPoolSize(30) #scrapy相關源碼: D:\python3.6\Lib\site-packages\scrapy\crawler.py #補充: windows下查看進程內線程數的工具: https://docs.microsoft.com/zh-cn/sysinternals/downloads/pslist 或 https://pan.baidu.com/s/1jJ0pMaM 命令爲: pslist |findstr python linux下:top -p 進程id #===>第八部分:其餘默認配置參考<=== D:\python3.6\Lib\site-packages\scrapy\settings\default_settings.py