先熟悉下scrapy項目結構:python
scrapyTest/scrapyTest/ _init_.py用來初始化項目信息框架
scrapyTest/scrapyTest/ items.py文件爲爬蟲項目的數據容器文件,主要用來定義咱們的數據.scrapy
scrapyTest/scrapyTest/ pipelines.py文件爲爬蟲項目的管道文件,主要用於對items中的數據進行進一步加工與處理ide
scrapyTest/scrapyTest/ settings.py文件爲爬蟲項目的設置文件,主要爲爬蟲項目設置一些信息。學習
spider文件夾下放置的是爬蟲項目的爬蟲部分相關的文件。this
scrapyTest/scrapyTest/spider/ _init_.py文件爲爬蟲項目中部分代碼進行初始化,主要是爲spider進行初始化,以上是對scrapy項目的結構進行說明。spa
1. 建立scrapy項目: 好比咱們須要在「D:\python\day1\」這個目錄建立項目。日誌
直接輸入一下命令:code
cd D:\python\day1\ scrapy startproject <projectname> (這裏我用scrapyTest來命名)
這裏就建立scrapy項目成功ip
咱們進入到建立項目的目錄:cd 項目名稱
在建立項目過程當中咱們也能夠加一些參數進行控制:
輸入命令:
scrapy startproject -h
輸出以下:
Usage ===== scrapy startproject <project_name> [project_dir] Create new project Options ======= --help, -h show this help message and exit Global Options -------------- --logfile=FILE log file. if omitted stderr will be used --loglevel=LEVEL, -L LEVEL log level (default: DEBUG) --nolog disable logging completely --profile=FILE write python cProfile stats to FILE --pidfile=FILE write process ID to FILE --set=NAME=VALUE, -s NAME=VALUE set/override setting (may be repeated) --pdb enable pdb on failure
--logfile=File用來指定打印日誌存放的目錄
例如: scrapy startproject --logfile=log.txt scrapyTest