Scrapy 爬蟲實例教程（一）---簡介及資源列表

時間 2020-05-19

原文原文鏈接

Scrapy（官網 http://scrapy.org/）是一款功能強大的，用戶可定製的網絡爬蟲軟件包。其官方描述稱："html

Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing

"git

Scrapy在github中有源碼託管https://github.com/scrapy/scrapy，其安裝能夠參考github中提供的安裝方法（大百度中也提供了不少安裝方法的描述）。另外網站1和網站2提供了scrapy的使用方法和簡單實例（小編後續隨筆也會簡單寫一個scrapy實例，供你們參考）。github

Scrapy的爬蟲原理：web

　　　　　　　　　　　　」盜用「的scrapy 官網中的scrapy核心框架圖數據庫

　　Scrapy Engine是scrapy軟件的核心，他負責各個組件的協調處理api

　　Scheduler是調度器，負責爬去隊列的管理，如Request的入隊和出隊管理網絡

　　Item Pipeline 是抓取內容的核心組件，用戶想要獲取的內容能夠寫入item 而後再pipeline中設計數據的流向好比寫入文件或是持久化到數據庫中框架

　　Downloader 則是scrapy與web site接觸的端口，負責根據Request 請求網頁而後以response的形式返回用戶處理接口（默認是 spider的parse函數）異步

　　Spider則是用戶定製興趣內容的模塊，在scrapy的spiders中內置了BaseSpider，CSVFeedSpider，CrawlerSpider，用戶能夠根據狀況選擇合適spider繼承與開發scrapy

　　Spider Middlewares則是Spider與Scrapy Engine 的中間層，用戶能夠個性化定義Spider向Engine傳輸過程

Scrpay的運行過程：

（1）Engine從Spider中獲取一個須要爬取的URL（從spider中start_url獲取），並以Request的形式在Scheduler中列隊。

（2）Scheduler根據列隊狀況，把Request發送給Downloader，Downloader根據Request請求網頁，並獲取網頁內容。

（3）網頁內容以Response的形式通過Engine發送給Spider，並根據用戶解析生成Item，發送給Pipeline。