Scrapy設置(settings)提供了定製Scrapy組件的方法。能夠控制包括核心(core),插件(extension),pipeline及spider組件。好比 設置Json Pipeliine、LOG_LEVEL等。html
參考文檔:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref服務器
BOT_NAME
cookie
默認: 'scrapybot'併發
當您使用 startproject 命令建立項目時其也被自動賦值。app
CONCURRENT_ITEMS
scrapy
默認: 100ide
Item Processor(即 Item Pipeline) 同時處理(每一個response的)item的最大值。網站
CONCURRENT_REQUESTS
默認: 16編碼
Scrapy downloader 併發請求(concurrent requests)的最大值。插件
DEFAULT_REQUEST_HEADERS
默認: 以下
{ 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', }
Scrapy HTTP Request使用的默認header。
DEPTH_LIMIT
默認: 0
爬取網站最大容許的深度(depth)值。若是爲0,則沒有限制。
DOWNLOAD_DELAY
默認: 0
下載器在下載同一個網站下一個頁面前須要等待的時間。該選項能夠用來限制爬取速度, 減輕服務器壓力。同時也支持小數:
DOWNLOAD_DELAY = 0.25 # 250 ms of delay
DOWNLOAD_TIMEOUT
默認: 180
下載器超時時間(單位: 秒)。
ITEM_PIPELINES
默認: {}
保存項目中啓用的pipeline及其順序的字典。該字典默認爲空,值(value)任意,不過值(value)習慣設置在0-1000範圍內,值越小優先級越高。
ITEM_PIPELINES = { 'mySpider.pipelines.SomethingPipeline': 300, 'mySpider.pipelines.ItcastJsonPipeline': 800, }
LOG_ENABLED
默認: True
是否啓用logging。
LOG_ENCODING
默認: 'utf-8'
logging使用的編碼。
LOG_LEVEL
默認: 'DEBUG'
log的最低級別。可選的級別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。
USER_AGENT
默認: "Scrapy/VERSION (+http://scrapy.org)"
爬取的默認User-Agent,除非被覆蓋。
PROXIES
: 代理設置示例:
PROXIES = [ {'ip_port': '111.11.228.75:80', 'password': ''}, {'ip_port': '120.198.243.22:80', 'password': ''}, {'ip_port': '111.8.60.9:8123', 'password': ''}, {'ip_port': '101.71.27.120:80', 'password': ''}, {'ip_port': '122.96.59.104:80', 'password': ''}, {'ip_port': '122.224.249.122:8088', 'password':''}, ]
COOKIES_ENABLED = False