Scrapy框架安裝html
一、首先,終端執行命令升級pip: python -m pip install --upgrade pip
二、安裝,wheel(建議網絡安裝) pip install wheel
三、安裝,lxml(建議下載安裝)
四、安裝,Twisted(建議下載安裝)
五、安裝,Scrapy(建議網絡安裝) pip install Scrapypython
測試Scrapy是否安裝成功mysql
Scrapy框架指令web
scrapy -h 查看幫助信息sql
Available commands:
bench Run quick benchmark test (scrapy bench 硬件測試指令,能夠測試當前服務器每分鐘最多能爬多少個頁面)
fetch Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/ 獲取一個網頁html源碼)
genspider Generate new spider using pre-defined templates ()
runspider Run a self-contained spider (without creating a project) ()
settings Get settings values ()
shell Interactive scraping console ()
startproject Create new project (cd 進入要建立項目的目錄,scrapy startproject 項目名稱 ,建立scrapy項目)
version Print Scrapy version ()
view Open URL in browser, as seen by Scrapy ()shell
建立項目以及項目說明數據庫
scrapy startproject adc 建立項目api
項目說明服務器
目錄結構以下:網絡
├── firstCrawler
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ └── __init__.py
└── scrapy.cfg
scrapy.cfg
: 項目的配置文件tems.py
: 項目中的item文件,用來定義解析對象對應的屬性或字段。pipelines.py
: 負責處理被spider提取出來的item。典型的處理有清理、 驗證及持久化(例如存取到數據庫) [](http://lib.csdn.net/base/mysql "MySQL知識庫")settings.py
: 項目的設置文件.項目指令
項目指令是須要cd進入項目目錄執行的指令
scrapy -h 項目指令幫助
Available commands:
bench Run quick benchmark test
check Check spider contracts
crawl Run a spider
edit Edit spider
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
list List available spiders
parse Parse URL (using its spider) and print the results
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version (scrapy version 查看scrapy版本信息)
view Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/ 下載一個網頁並打開)
建立爬蟲文件
建立爬蟲文件是根據scrapy的母版來建立爬蟲文件的
scrapy genspider -l 查看scrapy建立爬蟲文件可用的母版
Available templates:母版說明
basic 建立基礎爬蟲文件
crawl 建立自動爬蟲文件
csvfeed 建立爬取csv數據爬蟲文件
xmlfeed 建立爬取xml數據爬蟲文件
建立一個基礎母版爬蟲,其餘同理
scrapy genspider -t 母版名稱 爬蟲文件名稱 要爬取的域名 建立一個基礎母版爬蟲,其餘同理
如:scrapy genspider -t basic pach baidu.com
scrapy check 爬蟲文件名稱 測試一個爬蟲文件是否合規
如:scrapy check pach
scrapy crawl 爬蟲名稱 執行爬蟲文件,顯示日誌 【重點】
scrapy crawl 爬蟲名稱 --nolog 執行爬蟲文件,不顯示日誌【重點】
【轉載自:http://www.lqkweb.com】