Scrapy一個開源和協做的框架,其最初是爲了頁面抓取 (更確切來講, 網絡抓取 )所設計的,使用它能夠以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分普遍,可用於如數據挖掘、監測和自動化測試等領域,也能夠應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。Scrapy 是基於twisted框架開發而來,twisted是一個流行的事件驅動的python網絡框架。所以Scrapy使用了一種非阻塞(又名異步)的代碼來實現併發。css
總體架構大體以下:html
''' Components: 一、引擎(EGINE) 引擎負責控制系統全部組件之間的數據流,並在某些動做發生時觸發事件。有關詳細信息,請參見上面的數據流部分。 二、調度器(SCHEDULER) 用來接受引擎發過來的請求, 壓入隊列中, 並在引擎再次請求的時候返回. 能夠想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址
三、下載器(DOWLOADER) 用於下載網頁內容, 並將網頁內容返回給EGINE,下載器是創建在twisted這個高效的異步模型上的
四、爬蟲(SPIDERS) SPIDERS是開發人員自定義的類,用來解析responses,而且提取items,或者發送新的請求
五、項目管道(ITEM PIPLINES) 在items被提取後負責處理它們,主要包括清理、驗證、持久化(好比存到數據庫)等操做 下載器中間件(Downloader Middlewares)位於Scrapy引擎和下載器之間,主要用來處理從EGINE傳到DOWLOADER的請求request,已經從DOWNLOADER傳到EGINE的響應response,
你可用該中間件作如下幾件事: (1) process a request just before it is sent to the Downloader (i.e. right before Scrapy sends the request to the website); (2) change received response before passing it to a spider; (3) send a new Request instead of passing received response to a spider; (4) pass response to a spider without fetching a web page; (5) silently drop some requests.
六、爬蟲中間件(Spider Middlewares) 位於EGINE和SPIDERS之間,主要工做是處理SPIDERS的輸入(即responses)和輸出(即requests) '''
官網連接python
#Windows平臺 一、pip3 install wheel #安裝後,便支持經過wheel文件安裝軟件,wheel文件官網:https://www.lfd.uci.edu/~gohlke/pythonlibs 3、pip3 install lxml 4、pip3 install pyopenssl 五、下載並安裝pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/ 六、下載twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 七、執行pip3 install 下載目錄\Twisted-17.9.0-cp36-cp36m-win_amd64.whl 8、pip3 install scrapy #Linux平臺 一、pip3 install scrapy
# 1 查看幫助 scrapy -h scrapy <command> -h # 2 有兩種命令:其中Project-only必須切到項目文件夾下才能執行,而Global的命令則不須要 Global commands: startproject #建立項目 genspider #建立爬蟲程序 settings #若是是在項目目錄下,則獲得的是該項目的配置 runspider #運行一個獨立的python文件,沒必要建立項目 shell #scrapy shell url地址 在交互式調試,如選擇器規則正確與否 fetch #獨立於程單純地爬取一個頁面,能夠拿到請求頭 view #下載完畢後直接彈出瀏覽器,以此能夠分辨出哪些數據是ajax請求 version #scrapy version 查看scrapy的版本,scrapy version -v查看scrapy依賴庫的版本 Project-only commands: crawl #運行爬蟲,必須建立項目才行,確保配置文件中ROBOTSTXT_OBEY = False check #檢測項目中有無語法錯誤 list #列出項目中所包含的爬蟲名 edit #編輯器,通常不用 parse #scrapy parse url地址 --callback 回調函數 #以此能夠驗證咱們的回調函數是否正確 bench #scrapy bentch壓力測試 # 3 官網連接 https://docs.scrapy.org/en/latest/topics/commands.html
''' project_name/ scrapy.cfg project_name/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py 爬蟲1.py 爬蟲2.py 爬蟲3.py '''
文件說明:web
注意:ajax
一、通常建立爬蟲文件時,以網站域名命名shell
二、默認只能在終端執行命令,爲了更便捷操做:數據庫
#在項目根目錄下新建:entrypoint.py from scrapy.cmdline import execute execute(['scrapy', 'crawl', 'xiaohua'])
框架基礎:spider類,選擇器,瀏覽器
Spiders是定義如何抓取某個站點(或一組站點)的類,包括如何執行爬行(即跟隨連接)以及如何從其頁面中提取結構化數據(即抓取項目)。換句話說,Spiders是您爲特定站點(或者在某些狀況下,一組站點)爬網和解析頁面定義自定義行爲的地方。 服務器
Spiders會循環作以下事情:網絡
''' 一、 生成初始的Requests來爬取第一個URLS,而且標識一個回調函數 第一個請求定義在start_requests()方法內默認從start_urls列表中得到url地址來生成Request請求,
默認的回調函數是parse方法。回調函數在下載完成返回response時自動觸發 二、 在回調函數中,解析response而且返回值 返回值能夠4種: 包含解析數據的字典 Item對象 新的Request對象(新的Requests也須要指定一個回調函數) 或者是可迭代對象(包含Items或Request) 三、在回調函數中解析頁面內容 一般使用Scrapy自帶的Selectors,但很明顯你也可使用Beutifulsoup,lxml或其餘你愛用啥用啥。 四、最後,針對返回的Items對象將會被持久化到數據庫 經過Item Pipeline組件存到數據庫:https://docs.scrapy.org/en/latest/topics/item-pipeline.html#topics-item-pipeline) 或者導出到不一樣的文件(經過Feed exports:https://docs.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports) '''
爲了解釋如何使用選擇器,咱們將使用Scrapy shell(提供交互式測試)和Scrapy文檔服務器中的示例頁面,
這是它的HTML代碼:
<html> <head> <base href='http://example.com/' /> <title>Example website</title> </head> <body> <div id='images'> <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a> <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a> <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a> <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a> <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a> </div> </body> </html>
首先,讓咱們打開shell:
scrapy shell https://doc.scrapy.org/en/latest/_static/selectors-sample1.html
而後,在shell加載以後,您將得到響應做爲response
shell變量,並在response.selector
屬性中附加選擇器。
讓咱們構建一個XPath來選擇title標籤內的文本:
>>> response.selector.xpath('//title/text()') [<Selector (text) xpath=//title/text()>]
使用XPath和CSS查詢響應很是常見,響應包括兩個便捷快捷方式:response.xpath()
和response.css()
:
>>> response.xpath('//title/text()') [<Selector (text) xpath=//title/text()>] >>> response.css('title::text') [<Selector (text) xpath=//title/text()>]
正如你所看到的,.xpath()
而且.css()
方法返回一個 SelectorList
實例,這是新的選擇列表。此API可用於快速選擇嵌套數據:
>>> response.css('img').xpath('@src').extract() [u'image1_thumb.jpg', u'image2_thumb.jpg', u'image3_thumb.jpg', u'image4_thumb.jpg', u'image5_thumb.jpg']
要實際提取文本數據,必須調用selector .extract()
方法,以下所示:
>>> response.xpath('//title/text()').extract() [u'Example website']
若是隻想提取第一個匹配的元素,能夠調用選擇器 .extract_first()
>>> response.xpath('//div[@id="images"]/a/text()').extract_first() u'Name: My image 1 '
如今咱們將得到基本URL和一些圖像連接:
>>> response.xpath('//base/@href').extract() [u'http://example.com/'] >>> response.css('base::attr(href)').extract() [u'http://example.com/'] >>> response.xpath('//a[contains(@href, "image")]/@href').extract() [u'image1.html', u'image2.html', u'image3.html', u'image4.html', u'image5.html'] >>> response.css('a[href*=image]::attr(href)').extract() [u'image1.html', u'image2.html', u'image3.html', u'image4.html', u'image5.html'] >>> response.xpath('//a[contains(@href, "image")]/img/@src').extract() [u'image1_thumb.jpg', u'image2_thumb.jpg', u'image3_thumb.jpg', u'image4_thumb.jpg', u'image5_thumb.jpg'] >>> response.css('a[href*=image] img::attr(src)').extract() [u'image1_thumb.jpg', u'image2_thumb.jpg', u'image3_thumb.jpg', u'image4_thumb.jpg', u'image5_thumb.jpg']