scrapy之settings參數

時間 2019-12-19
原文原文鏈接
#==>第一部分：基本配置<===
#一、項目名稱，默認的USER_AGENT由它來構成，也做爲日誌記錄的日誌名
BOT_NAME = 'Amazon'

#二、爬蟲應用路徑
SPIDER_MODULES = ['Amazon.spiders']
NEWSPIDER_MODULE = 'Amazon.spiders'

#三、客戶端User-Agent請求頭
#USER_AGENT = 'Amazon (+http://www.yourdomain.com)'

#四、是否遵循爬蟲協議
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

#五、是否支持cookie，cookiejar進行操做cookie，默認開啓
#COOKIES_ENABLED = False

#六、Telnet用於查看當前爬蟲的信息，操做爬蟲等...使用telnet ip port ，而後經過命令操做
#TELNETCONSOLE_ENABLED = False
#TELNETCONSOLE_HOST = '127.0.0.1'
#TELNETCONSOLE_PORT = [6023,]

#七、Scrapy發送HTTP請求默認使用的請求頭
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}



#===>第二部分：併發與延遲<===
#一、下載器總共最大處理的併發請求數,默認值16
#CONCURRENT_REQUESTS = 32

#二、每一個域名可以被執行的最大併發請求數目，默認值8
#CONCURRENT_REQUESTS_PER_DOMAIN = 16

#三、可以被單個IP處理的併發請求數，默認值0，表明無限制，須要注意兩點
#I、若是不爲零，那CONCURRENT_REQUESTS_PER_DOMAIN將被忽略，即併發數的限制是按照每一個IP來計算，而不是每一個域名
#II、該設置也影響DOWNLOAD_DELAY，若是該值不爲零，那麼DOWNLOAD_DELAY下載延遲是限制每一個IP而不是每一個域
#CONCURRENT_REQUESTS_PER_IP = 16

#四、若是沒有開啓智能限速，這個值就表明一個規定死的值，表明對同一網址延遲請求的秒數
#DOWNLOAD_DELAY = 3


#===>第三部分：智能限速/自動節流：AutoThrottle extension<===
#一：介紹
from scrapy.contrib.throttle import AutoThrottle #http://scrapy.readthedocs.io/en/latest/topics/autothrottle.html#topics-autothrottle
設置目標：
1、比使用默認的下載延遲對站點更好
2、自動調整scrapy到最佳的爬取速度，因此用戶無需本身調整下載延遲到最佳狀態。用戶只須要定義容許最大併發的請求，剩下的事情由該擴展組件自動完成


#二：如何實現？
在Scrapy中，下載延遲是經過計算創建TCP鏈接到接收到HTTP包頭(header)之間的時間來測量的。
注意，因爲Scrapy可能在忙着處理spider的回調函數或者沒法下載，所以在合做的多任務環境下準確測量這些延遲是十分苦難的。 不過，這些延遲仍然是對Scrapy(甚至是服務器)繁忙程度的合理測量，而這擴展就是以此爲前提進行編寫的。


#三：限速算法
自動限速算法基於如下規則調整下載延遲
#一、spiders開始時的下載延遲是基於AUTOTHROTTLE_START_DELAY的值
#二、當收到一個response，對目標站點的下載延遲=收到響應的延遲時間/AUTOTHROTTLE_TARGET_CONCURRENCY
#三、下一次請求的下載延遲就被設置成：對目標站點下載延遲時間和過去的下載延遲時間的平均值
#四、沒有達到200個response則不容許下降延遲
#五、下載延遲不能變的比DOWNLOAD_DELAY更低或者比AUTOTHROTTLE_MAX_DELAY更高

#四：配置使用
#開啓True，默認False
AUTOTHROTTLE_ENABLED = True
#起始的延遲
AUTOTHROTTLE_START_DELAY = 5
#最小延遲
DOWNLOAD_DELAY = 3
#最大延遲
AUTOTHROTTLE_MAX_DELAY = 10
#每秒併發請求數的平均值，不能高於 CONCURRENT_REQUESTS_PER_DOMAIN或CONCURRENT_REQUESTS_PER_IP，調高了則吞吐量增大強姦目標站點，調低了則對目標站點更加」禮貌「
#每一個特定的時間點，scrapy併發請求的數目均可能高於或低於該值，這是爬蟲視圖達到的建議值而不是硬限制
AUTOTHROTTLE_TARGET_CONCURRENCY = 16.0
#調試
AUTOTHROTTLE_DEBUG = True
CONCURRENT_REQUESTS_PER_DOMAIN = 16
CONCURRENT_REQUESTS_PER_IP = 16



#===>第四部分：爬取深度與爬取方式<===
#一、爬蟲容許的最大深度，能夠經過meta查看當前深度；0表示無深度
# DEPTH_LIMIT = 3

#二、爬取時，0表示深度優先Lifo(默認)；1表示廣度優先FiFo

# 後進先出，深度優先
# DEPTH_PRIORITY = 0
# SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleLifoDiskQueue'
# SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.LifoMemoryQueue'
# 先進先出，廣度優先

# DEPTH_PRIORITY = 1
# SCHEDULER_DISK_QUEUE = 'scrapy.squeue.PickleFifoDiskQueue'
# SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue'


#三、調度器隊列
# SCHEDULER = 'scrapy.core.scheduler.Scheduler'
# from scrapy.core.scheduler import Scheduler

#四、訪問URL去重
# DUPEFILTER_CLASS = 'step8_king.duplication.RepeatUrl'



#===>第五部分：中間件、Pipelines、擴展<===
#一、Enable or disable spider middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'Amazon.middlewares.AmazonSpiderMiddleware': 543,
#}

#二、Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
   # 'Amazon.middlewares.DownMiddleware1': 543,
}

#三、Enable or disable extensions
# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

#四、Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   # 'Amazon.pipelines.CustomPipeline': 200,
}



#===>第六部分：緩存<===
"""
1. 啓用緩存
    目的用於將已經發送的請求或相應緩存下來，以便之後使用
    
    from scrapy.downloadermiddlewares.httpcache import HttpCacheMiddleware
    from scrapy.extensions.httpcache import DummyPolicy
    from scrapy.extensions.httpcache import FilesystemCacheStorage
"""
# 是否啓用緩存策略
# HTTPCACHE_ENABLED = True

# 緩存策略：全部請求均緩存，下次在請求直接訪問原來的緩存便可
# HTTPCACHE_POLICY = "scrapy.extensions.httpcache.DummyPolicy"
# 緩存策略：根據Http響應頭：Cache-Control、Last-Modified 等進行緩存的策略
# HTTPCACHE_POLICY = "scrapy.extensions.httpcache.RFC2616Policy"

# 緩存超時時間
# HTTPCACHE_EXPIRATION_SECS = 0

# 緩存保存路徑
# HTTPCACHE_DIR = 'httpcache'

# 緩存忽略的Http狀態碼
# HTTPCACHE_IGNORE_HTTP_CODES = []

# 緩存存儲的插件
# HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'


#===>第七部分：線程池<===
REACTOR_THREADPOOL_MAXSIZE = 10

#Default: 10
#scrapy基於twisted異步IO框架，downloader是多線程的，線程數是Twisted線程池的默認大小(The maximum limit for Twisted Reactor thread pool size.)

#關於twisted線程池：
http://twistedmatrix.com/documents/10.1.0/core/howto/threading.html

#線程池實現：twisted.python.threadpool.ThreadPool
twisted調整線程池大小：
from twisted.internet import reactor
reactor.suggestThreadPoolSize(30)

#scrapy相關源碼：
D:\python3.6\Lib\site-packages\scrapy\crawler.py

#補充：
windows下查看進程內線程數的工具：
    https://docs.microsoft.com/zh-cn/sysinternals/downloads/pslist
    或
    https://pan.baidu.com/s/1jJ0pMaM
    
    命令爲：
    pslist |findstr python

linux下：top -p 進程id


#===>第八部分：其餘默認配置參考<===
D:\python3.6\Lib\site-packages\scrapy\settings\default_settings.py
相關標籤/搜索
每日一句
每一个你不满意的现在，都有一个你没有努力的曾经。