如何優雅的導入scrapy中settings.py的配置參數呢?總不能用from scrapy import settings
吧,或者from scrapy.settings import XXX
吧。這看起來一點逼格都沒有。python
scrapy提供了導入設置的方法:from_crawlerajax
@classmethod def from_crawler(cls, crawler): server = crawler.settings.get('SERVER') # FIXME: for now, stats are only supported from this constructor return cls(server)
接着,只要在__init__接收這些參數就能夠了。shell
def __init__(self, server): self.server = server
而在一些官方的組件的源碼中會這樣使用,不過這看起來有點畫蛇添足後端
@classmethod def from_settings(cls, settings): server = settings.get('SERVER') return cls(server) @classmethod def from_crawler(cls, crawler): # FIXME: for now, stats are only supported from this constructor return cls.from_settings(crawler.settings)
另外,並非全部的類均可以使用這個類方法。只有像插件,中間件,信號管理器和項目管道等這些組件才能使用這個類方法來導入配置,若是是本身寫的spider或者自定義文件並無,須要使用以下方法導入:緩存
from scrapy.utils.project import get_project_settings settings = get_project_settings()
這裏的settings就是包含settings.py的全部配置的字典了。服務器
scrapy中的有不少配置,說一下比較經常使用的幾個:cookie
DOWNLOAD_DELAY
到1.5 *DOWNLOAD_DELAY
之間的隨機值。也能夠設置爲固定值,由RANDOMIZE_DOWNLOAD_DELAY
指定是否固定,默認True隨機。這裏的同一個網站能夠是域名也能夠是IP,由CONCURRENT_REQUESTS_PER_IP
的值決定。CONCURRENT_REQUESTS_PER_DOMAIN
參數被忽略,並且DOWNLOAD_DELAY
這個參數的同一網站指的是IPscrapy.item.Item
request.priority = request.priority - ( depth * DEPTH_PRIORITY )
LOG_FORMAT
中的時間格式化表達式我也是新手,並無系統性的使用scrapy,只是用來練習過一些小項目,因此若是有錯誤還請指出。併發
面對這麼多的設置總不能用一次就查一次吧,因此咱們須要修改scrapy startproject
命令默認建立的模板文件中的settings.py
的內容,將以上的註釋和參數都保存在這個文件中,每當咱們建立一個新的工程,咱們只須要看一下settings.py中哪一個參數須要更改就好了。模板文件在Anaconda\Lib\site-packages\scrapy\templates\project\module
(若是是anaconda的話)scrapy
settings.py中大部分配置的註釋:ide
# 項目名稱 BOT_NAME = '$project_name' SPIDER_MODULES = ['$project_name.spiders'] NEWSPIDER_MODULE = '$project_name.spiders' # 在項目處理器(也稱爲「 項目管道」)中並行處理的最大併發項目數(每一個響應),默認100。 #CONCURRENT_ITEMS = 100 # Scrapy下載器將執行的併發(即,併發)請求的最大數量,默認16 CONCURRENT_REQUESTS = 8 # 從同一網站下載連續頁面以前,下載程序應等待的時間(以秒爲單位)。 # 這能夠用來限制爬網速度,以免對服務器形成太大的衝擊。支持小數。 # 默認狀況下,Scrapy不會在請求之間等待固定的時間,而是使用0.5 * DOWNLOAD_DELAY和1.5 * DOWNLOAD_DELAY之間的隨機間隔。 #DOWNLOAD_DELAY = 0 # 將對任何單個域執行的併發(即,併發)請求的最大數量,默認8 #CONCURRENT_REQUESTS_PER_DOMAIN = 16 # 將對任何單個IP執行的併發(即,併發)請求的最大數量,默認0。 # 若是非0,CONCURRENT_REQUESTS_PER_DOMAIN這個參數會被忽略,即按IP不按域名。DOWNLOAD_DELAY也是按IP #CONCURRENT_REQUESTS_PER_IP = 16 # 將用於實例化Scrapy shell中的項目的默認類 #DEFAULT_ITEM_CLASS = 'scrapy.item.Item' # 對於任何站點,將容許爬網的最大深度。若是爲零,則不施加限制 #DEPTH_LIMIT = 0 # 根據DEPTH_PRIORITY的值取決於深度優先或廣度優先,即正值爲廣度優先(BFO),負值爲深度優先(DFO) # 計算公式:request.priority = request.priority - ( depth * DEPTH_PRIORITY ) #DEPTH_PRIORITY = 0 # 是否啓用cookie COOKIES_ENABLED = False # 若是啓用,Scrapy將記錄請求中發送的全部cookie(即Cookie 標頭)和響應中接收的全部cookie(即Set-Cookie標頭) #COOKIES_DEBUG = False # 是否收集詳細的深度統計信息。若是啓用此功能,則在統計信息中收集每一個深度的請求數 #DEPTH_STATS_VERBOSE = False # 是否啓用DNS內存緩存 #DNSCACHE_ENABLED = True # DNS內存緩存大小 #DNSCACHE_SIZE = 10000 # 處理DNS查詢的超時時間(以秒爲單位)。支持浮動 #DNS_TIMEOUT = 60 # 用於爬網的下載器 #DOWNLOADER = 'scrapy.core.downloader.Downloader' # Disable Telnet Console (enabled by default) #TELNETCONSOLE_ENABLED = False # 包含您的項目中啓用的下載器中間件及其命令的字典 #DOWNLOADER_MIDDLEWARE = {} # 用於Scrapy HTTP請求的默認標頭。它們被填充在 DefaultHeadersMiddleware DEFAULT_REQUEST_HEADERS = { } # Scrapy中默認啓用的下載程序中間件的字典。低值更接近引擎,高值更接近下載器, # 不要試圖修改此設置,請修改DOWNLOADER_MIDDLEWARE #DOWNLOADER_MIDDLEWARES_BASE = { # 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100, # 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300, # 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350, # 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400, # 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500, # 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550, # 'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560, # 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580, # 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590, # 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600, # 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700, # 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750, # 'scrapy.downloadermiddlewares.stats.DownloaderStats': 850, # 'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900, # } # 是否啓用下載器統計信息收集 #DOWNLOADER_STATS = True # 包含在項目中啓用的請求下載處理程序的字典 #DOWNLOAD_HANDLERS = {} # 包含請求下載處理程序的默認字典 # 若是要禁用FTP處理程序,請設置DOWNLOAD_HANDLERS = {'ftp': None} #DOWNLOAD_HANDLERS_BASE = { # 'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler', # 'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler', # 'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler', # 's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler', # 'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler', # } # 下載程序的超時時間(以秒爲單位) #DOWNLOAD_TIMEOUT = 180 # 載程序將下載的最大響應大小(以字節爲單位,默認1024MB),爲0則不限制 #DOWNLOAD_MAXSIZE = 1073741824 # 下載程序將開始警告的響應大小(以字節爲單位,默認32MB) #DOWNLOAD_WARNSIZE = 33554432 # 聲明的Content-Length與服務器發送的內容不匹配,是否觸發異常ResponseFailed([_DataLoss]) # 若是爲False,能夠在爬蟲文件中判斷並處理 if 'dataloss' in response.flags: #DOWNLOAD_FAIL_ON_DATALOSS = True # 用於檢測和過濾重複請求的類 #DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter' # 默認狀況下,RFPDupeFilter僅記錄第一個重複的請求。設置DUPEFILTER_DEBUG爲True它將記錄全部重複的請求。 #DUPEFILTER_DEBUG = False # 包含您的項目中啓用的擴展及其順序的字典 #EXTENSIONS = {} # 包含默認狀況下在Scrapy中可用的擴展程序及其順序的字典 #EXTENSIONS_BASE = { # 'scrapy.extensions.corestats.CoreStats': 0, # 'scrapy.extensions.telnet.TelnetConsole': 0, # 'scrapy.extensions.memusage.MemoryUsage': 0, # 'scrapy.extensions.memdebug.MemoryDebugger': 0, # 'scrapy.extensions.closespider.CloseSpider': 0, # 'scrapy.extensions.feedexport.FeedExporter': 0, # 'scrapy.extensions.logstats.LogStats': 0, # 'scrapy.extensions.spiderstate.SpiderState': 0, # 'scrapy.extensions.throttle.AutoThrottle': 0, # } # 包含要使用的項目管道及其順序的字典。值是任意的,可是習慣上將它們定義在0-1000範圍內。低值優先於高值 #ITEM_PIPELINES = {} # 是否啓用日誌記錄 #LOG_ENABLED = True # 用於日誌記錄的編碼 #LOG_ENCODING = 'utf-8' # 用於記錄輸出的文件名 #LOG_FILE = None # 用於格式化日誌消息的字符串 #LOG_FORMAT = '%(asctime)s [%(name)s] %(levelname)s: %(message)s' # 用於格式化日期/時間的字符串,用於改變LOG_FORMAT 中的asctime佔位符 #LOG_DATEFORMAT = '%Y-%m-%d %H:%M:%S' # 用於格式化不一樣操做的日誌消息的類 #LOG_FORMATTER = "scrapy.logformatter.LogFormatter" # 最低記錄級別, 可用:CRITICAL, ERROR, WARNING, INFO, DEBUG #LOG_LEVEL = 'DEBUG' # 若是爲True,全部標準輸出(和錯誤)將被重定向到日誌,例如print也會被記錄在日誌 #LOG_STDOUT = False # 若是爲True,則日誌將僅包含根路徑;若是設置爲False,則顯示負責日誌輸出的組件 #LOG_SHORT_NAMES = False # 每次統計記錄打印輸出之間的間隔(以秒爲單位) #LOGSTATS_INTERVAL = 60.0 # 是否啓用內存調試 #MEMDEBUG_ENABLED = False # 啓用內存調試後,若是此設置不爲空,則會將內存報告發送到指定的郵箱地址,不然該報告將被寫入日誌。 # 例如:MEMDEBUG_NOTIFY = ['user@example.com'] #MEMDEBUG_NOTIFY = [] # 是否啓用內存使用擴展。此擴展跟蹤該進程使用的峯值內存(將其寫入統計信息)。 # 當超過內存限制時,它還能夠選擇關閉Scrapy進程,並在發生這種狀況時經過電子郵件通知 #MEMUSAGE_ENABLED = True # 關閉Scrapy以前容許的最大內存量 #MEMUSAGE_LIMIT_MB = 0 #MEMUSAGE_CHECK_INTERVAL_SECONDS = 60.0 # 電子郵件列表,用於通知是否已達到內存限制 #MEMUSAGE_NOTIFY_MAIL = False # 發送警告電子郵件通知最大內存以前容許的最大內存量(以兆字節爲單位)。若是爲零,則不會發出警告 #MEMUSAGE_WARNING_MB = 0 # 使用genspider命令建立爬蟲的模板 #NEWSPIDER_MODULE = "" # 若是啓用,Scrapy將在從同一網站獲取請求的同時等待隨機的時間(介於0.5 * DOWNLOAD_DELAY和1.5 *之間DOWNLOAD_DELAY) #RANDOMIZE_DOWNLOAD_DELAY = True # Twisted Reactor線程池大小的最大限制。這是各類Scrapy組件使用的通用多用途線程池。 # 線程DNS解析器,BlockingFeedStorage,S3FilesStore僅舉幾例。 # 若是遇到阻塞IO不足的問題,請增長此值。 #REACTOR_THREADPOOL_MAXSIZE = 10 # 定義能夠重定向請求的最長時間。超過此最大值後,將按原樣返回請求的響應 #REDIRECT_MAX_TIMES = 20 # 調整重定向請求的優先級,爲正則優先級高 #REDIRECT_PRIORITY_ADJUST = 2 # 調整重試請求的優先級 #RETRY_PRIORITY_ADJUST = -1 # 是否遵循robot協議 ROBOTSTXT_OBEY = False # 用於解析robots.txt文件的解析器後端 #ROBOTSTXT_PARSER = 'scrapy.robotstxt.ProtegoRobotParser' #ROBOTSTXT_USER_AGENT = None # 用於爬網的調度程序 #SCHEDULER = 'scrapy.core.scheduler.Scheduler' # 設置爲True將記錄有關請求調度程序的調試信息 #SCHEDULER_DEBUG = False # 調度程序將使用的磁盤隊列的類型。其餘可用類型:scrapy.squeues.PickleFifoDiskQueue, # scrapy.squeues.MarshalFifoDiskQueue, scrapy.squeues.MarshalLifoDiskQueue #SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue' # 調度程序使用的內存隊列的類型。其餘可用類型: scrapy.squeues.FifoMemoryQueue #SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.LifoMemoryQueue' # 調度程序使用的優先級隊列的類型。另外一種可用的類型是 scrapy.pqueues.DownloaderAwarePriorityQueue #SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.ScrapyPriorityQueue' # 正在處理響應數據的軟限制(以字節爲單位)。 # 若是全部正在處理的響應的大小總和高於此值,Scrapy不會處理新的請求 #SCRAPER_SLOT_MAX_ACTIVE_SIZE = 5_000_000 # 包含您的項目中啓用的蜘蛛合約的字典,用於測試蜘蛛 #SPIDER_CONTRACTS = {} # 包含Scrapy合同中默認啓用的Scrapy合同的字典 #SPIDER_CONTRACTS_BASE = { # 'scrapy.contracts.default.UrlContract' : 1, # 'scrapy.contracts.default.ReturnsContract': 2, # 'scrapy.contracts.default.ScrapesContract': 3, # } # 將用於加載蜘蛛的類 #SPIDER_LOADER_CLASS = 'scrapy.spiderloader.SpiderLoader' # 包含您的項目中啓用的蜘蛛中間件及其命令的字典 #SPIDER_MIDDLEWARES = {} #SPIDER_MIDDLEWARES_BASE = { # 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50, # 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500, # 'scrapy.spidermiddlewares.referer.RefererMiddleware': 700, # 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800, # 'scrapy.spidermiddlewares.depth.DepthMiddleware': 900, # } # Scrapy將在其中尋找蜘蛛的模板列表 #SPIDER_MODULES = {} # 用於收集統計信息的類 #STATS_CLASS = 'scrapy.statscollectors.MemoryStatsCollector' # 蜘蛛完成後,將Scrapy統計信息轉儲到Scrapy日誌中 #STATS_DUMP = True # 蜘蛛抓取完畢後發送Scrapy統計信息的郵箱列表 #STATSMAILER_RCPTS = [] # 指定是否 將啓用telnet控制檯 #TELNETCONSOLE_ENABLED = True # 用於telnet控制檯的端口範圍。若是設置爲None或0,則使用動態分配的端口 #TELNETCONSOLE_PORT = [6023, 6073] # 使用startproject命令建立新項目和使用 genspider命令建立新的Spider時要在其中查找模板的目錄 #TEMPLATES_DIR = "templates" # 容許抓取的URL的最大URL長度 #URLLENGTH_LIMIT = 2083 # 爬網時使用的默認User-Agent #USER_AGENT = "Scrapy/VERSION (+https://scrapy.org)"