全局命令:shell
startproject:瀏覽器
語法: dom
scrapy startproject <project_name>;
在 project_name 文件夾下建立一個名爲 project_name 的Scrapy項目。scrapy
settings: ide
語法: 函數
scrapy settings [options]
獲取Scrapy的設定測試
runspider: fetch
語法: url
scrapy runspider <spider_file.py>
在未建立項目的狀況下,運行一個編寫在Python文件中的spider。code
shell:
語法:
scrapy shell [url]
以給定的URL(若是給出)或者空(沒有給出URL)啓動Scrapy shell。
fetch:
語法:
scrapy fetch <url>
使用Scrapy下載器(downloader)下載給定的URL,並將獲取到的內容送到標準輸出。
view:
語法:
scrapy view <url>
在瀏覽器中打開給定的URL,並以Scrapy spider獲取到的形式展示。
version:
語法:
scrapy version [-v]
輸出Scrapy版本。
項目(Project-only)命令:
crawl:
語法:
scrapy crawl <spider>
使用spider進行爬取。
check:
語法:
scrapy check [-l] <spider>
運行contract檢查。
list:
語法:
scrapy list
列出當前項目中全部可用的spider。每行輸出一個spider。
edit:
語法:
scrapy edit <spider>
編輯給定的spider
parse:
語法:
scrapy parse <url> [options]
獲取給定的URL並使用相應的spider分析處理。
--spider=SPIDER: 跳過自動檢測spider並強制使用特定的spider --a NAME=VALUE: 設置spider的參數(可能被重複) --callback or -c: spider中用於解析返回(response)的回調函數 --pipelines: 在pipeline中處理item --rules or -r: 使用 CrawlSpider 規則來發現用來解析返回(response)的回調函數 --noitems: 不顯示爬取到的item --nolinks: 不顯示提取到的連接 --nocolour: 避免使用pygments對輸出着色 --depth or -d: 指定跟進連接請求的層次數(默認: 1) --verbose or -v: 顯示每一個請求的詳細信息
genspider:
語法:
scrapy genspider [-t template] <name> <domain>
在當前項目中建立spider。
deploy:
語法:
scrapy deploy [ <target:project> | -l <target> | -L ]
將項目部署到Scrapyd服務。
bench:
語法:
scrapy bench
運行benchmark測試。