十、web爬蟲講解2—Scrapy框架爬蟲—Scrapy安裝—Scrapy指令

時間 2019-12-06

標籤 web 爬蟲講解 scrapy 框架安裝指令欄目 HTML 简体版

原文原文鏈接

【搜網盤:http://www.swpan.cn】

Scrapy框架安裝html

一、首先，終端執行命令升級pip: python -m pip install --upgrade pip
二、安裝，wheel(建議網絡安裝) pip install wheel
三、安裝，lxml(建議下載安裝)
四、安裝，Twisted(建議下載安裝)
五、安裝，Scrapy(建議網絡安裝) pip install Scrapypython

測試Scrapy是否安裝成功mysql

Scrapy框架指令web

scrapy -h 查看幫助信息sql

Available commands:
　　bench　　　　　　 Run quick benchmark test (scrapy bench  硬件測試指令，能夠測試當前服務器每分鐘最多能爬多少個頁面)
　　fetch　　　　　　 Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/  獲取一個網頁html源碼)
　　genspider 　　　   Generate new spider using pre-defined templates ()
　　runspider　　　　 Run a self-contained spider (without creating a project) ()
　　settings　　　　   Get settings values ()
　　shell 　　　　　　 Interactive scraping console ()
　　startproject 　　　Create new project (cd 進入要建立項目的目錄，scrapy startproject 項目名稱，建立scrapy項目)
　　version 　　　　 Print Scrapy version ()
　　view 　　　　　 Open URL in browser, as seen by Scrapy ()shell

建立項目以及項目說明數據庫

scrapy startproject adc 建立項目api

項目說明服務器

目錄結構以下：網絡

├── firstCrawler

│ ├── __init__.py

│ ├── items.py

│ ├── middlewares.py

│ ├── pipelines.py

│ ├── settings.py

│ └── spiders

│ └── __init__.py

└── scrapy.cfg

scrapy.cfg: 項目的配置文件
tems.py: 項目中的item文件，用來定義解析對象對應的屬性或字段。
pipelines.py: 負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(例如存取到數據庫） [](http://lib.csdn.net/base/mysql "MySQL知識庫")
settings.py: 項目的設置文件.
spiders：實現自定義爬蟲的目錄
middlewares.py：Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制，經過插入自定義代碼來擴展Scrapy功能。

項目指令

項目指令是須要cd進入項目目錄執行的指令

scrapy -h 項目指令幫助

Available commands:
　　bench　　　　 Run quick benchmark test
　　check　　　　 Check spider contracts
　　crawl　　　　   Run a spider
　　edit 　　　　    Edit spider
　　fetch　　　　 Fetch a URL using the Scrapy downloader
　　genspider　　 Generate new spider using pre-defined templates
　　list 　　　　　 List available spiders
　　parse　　　　 Parse URL (using its spider) and print the results
　　runspider 　　 Run a self-contained spider (without creating a project)
　　settings 　　 Get settings values
　　shell　　　　 Interactive scraping console
　　startproject 　 Create new project
　　version　　 Print Scrapy version (scrapy version  查看scrapy版本信息)
　　view　　　　 Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/  下載一個網頁並打開)

建立爬蟲文件

建立爬蟲文件是根據scrapy的母版來建立爬蟲文件的

scrapy genspider -l 查看scrapy建立爬蟲文件可用的母版

Available templates:母版說明
　　basic　　　　建立基礎爬蟲文件

　　crawl　　　　建立自動爬蟲文件
　　csvfeed　　建立爬取csv數據爬蟲文件

　　xmlfeed　　　建立爬取xml數據爬蟲文件

建立一個基礎母版爬蟲，其餘同理

scrapy genspider -t 母版名稱爬蟲文件名稱要爬取的域名建立一個基礎母版爬蟲，其餘同理
如：scrapy genspider -t basic pach baidu.com

scrapy check 爬蟲文件名稱測試一個爬蟲文件是否合規
如：scrapy check pach

scrapy crawl 爬蟲名稱執行爬蟲文件，顯示日誌【重點】

scrapy crawl 爬蟲名稱 --nolog 執行爬蟲文件，不顯示日誌【重點】
【轉載自：http://www.lqkweb.com】