Scrapy是一個爲了爬取網站數據,提取結構性數據而編寫的應用框架,很是出名,很是強悍。所謂的框架就是一個已經被集成了各類功能(高性能異步下載,隊列,分佈式,解析,持久化等)的具備很強通用性的項目模板。對於框架的學習,重點是要學習其框架的特性、各個功能的用法便可。html
Linux:
python
pip3 install scrapy
Windows:
a. pip3 install wheel
b. 下載twisted http:
/
/
www.lfd.uci.edu
/
~gohlke
/
pythonlibs
/
#twisted
c. 進入下載目錄,執行 pip3 install Twisted‑
17.1
.
0
‑cp35‑cp35m‑win_amd64.whl
d. pip3 install pywin32
e.
pip3 install scrapy
pip3 install Twisted‑
17.1
.
0
‑cp35‑cp35m‑win_amd64.whl失敗,請自行換成32位的便可解決,網上亂七八槽的答案請繞過,本人以親測沒什麼卵用!!!
project_name/ scrapy.cfg: project_name/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py scrapy.cfg 項目的主配置信息。(真正爬蟲相關的配置信息在settings.py文件中) items.py 設置數據存儲模板,用於結構化數據,如:Django的Model pipelines 數據持久化處理 settings.py 配置文件,如:遞歸的層數、併發數,延遲下載等 spiders 爬蟲目錄,如:建立文件,編寫爬蟲解析規則
# -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #應用名稱 #容許爬取的域名(若是遇到非該域名的url則爬取不到數據) allowed_domains = ['https://www.qiushibaike.com/'] #起始爬取的url start_urls = ['https://www.qiushibaike.com/'] #訪問起始URL並獲取結果後的回調函數,該函數的response參數就是向起始的url發送請求後,獲取的響應對象.該函數返回值必須爲可迭代對象或者NUll def parse(self, response): print(response.text) #獲取字符串類型的響應內容 print(response.body)#獲取字節類型的相應內容
4.設置修改settings.py配置文件相關配置:面試
#修改內容及其結果以下: 19行:USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' #假裝請求載體身份 22行:ROBOTSTXT_OBEY = False #能夠忽略或者不遵照robots協議
5.執行爬蟲程序(cmd):scrapy crawl 應用名稱數據庫
在cmd中執行爬蟲程序時要先將目錄切換到咱們建立的scrapy項目目錄下,不然就會報:Unknown command: crawl錯誤!!!!!!!json
小試牛刀:將糗百首頁中段子的內容和標題進行爬取windows
# -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' #應用名稱 allowed_domains = ['https://www.qiushibaike.com/'] start_urls = ['https://www.qiushibaike.com/'] def parse(self, response): #xpath爲response中的方法,能夠將xpath表達式直接做用於該函數中 odiv = response.xpath('//div[@id="content-left"]/div') content_list = [] #用於存儲解析到的數據 for div in odiv: #xpath函數返回的爲列表,列表中存放的數據爲Selector類型的數據。咱們解析到的內容被封裝在了Selector對象中,須要調用extract()函數將解析的內容從Selecor中取出。 author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract() content=div.xpath('.//div[@class="content"]/span/text()')[0].extract() #將解析到的內容封裝到字典中 dic={ '做者':author, '內容':content } #將數據存儲到content_list這個列表中 content_list.append(dic) return content_list
執行爬蟲程序:數據結構
執行輸出指定格式進行存儲:將爬取到的數據寫入不一樣格式的文件中進行存儲 scrapy crawl qiubai -o qiubai.json scrapy crawl qiubai -o qiubai.xml scrapy crawl qiubai -o qiubai.csv
# -*- coding: utf-8 -*- import scrapy class QiubaiSpider(scrapy.Spider): name = 'qiubai' allowed_domains = ['https://www.qiushibaike.com/'] start_urls = ['https://www.qiushibaike.com/'] def parse(self, response): #xpath爲response中的方法,能夠將xpath表達式直接做用於該函數中 odiv = response.xpath('//div[@id="content-left"]/div') with open('./data.txt', 'w') as fp: for div in odiv: #xpath函數返回的爲列表,列表中存放的數據爲Selector類型的數據。咱們解析到的內容被封裝在了Selector對象中,須要調用extract()函數將解析的內容從Selecor中取出。 author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract() content=div.xpath('.//div[@class="content"]/span/text()')[0].extract() #持久化存儲爬取到的內容 fp.write(author + ':' + content + '\n')
注意:上述代碼表示的持久化操做是咱們本身經過IO操做將數據進行的文件存儲。在scrapy框架中已經爲咱們專門集成好了高效、便捷的持久化操做功能,咱們直接使用便可。要想使用scrapy的持久化操做功能,咱們首先來認識以下兩個文件:併發
items.py:數據結構模板文件。定義數據屬性。 pipelines.py:管道文件。接收數據(items),進行持久化操做。 持久化流程: 1.爬蟲文件爬取到數據後,須要將數據封裝到items對象中。 2.使用yield關鍵字將items對象提交給pipelines管道進行持久化操做。 3.settings.py配置文件中開啓管道
爬蟲文件:qiubaiDemo.pyapp
# -*- coding: utf-8 -*- import scrapy from secondblood.items import SecondbloodItem class QiubaidemoSpider(scrapy.Spider): name = 'qiubaiDemo' allowed_domains = ['www.qiushibaike.com'] start_urls = ['http://www.qiushibaike.com/'] def parse(self, response): odiv = response.xpath('//div[@id="content-left"]/div') for div in odiv: # xpath函數返回的爲列表,列表中存放的數據爲Selector類型的數據。咱們解析到的內容被封裝在了Selector對象中,須要調用extract()函數將解析的內容從Selecor中取出。 author = div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first() author = author.strip('\n')#過濾空行 content = div.xpath('.//div[@class="content"]/span/text()').extract_first() content = content.strip('\n')#過濾空行 #將解析到的數據封裝至items對象中 item = SecondbloodItem() item['author'] = author item['content'] = content yield item#提交item到管道文件(pipelines.py)
items文件:items.py框架
import scrapy class SecondbloodItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author = scrapy.Field() #存儲做者 content = scrapy.Field() #存儲段子內容
管道文件:pipelines.py
# -*- coding: utf-8 -*- # Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html class SecondbloodPipeline(object): #構造方法 def __init__(self): self.fp = None #定義一個文件描述符屬性 #下列都是在重寫父類的方法: #開始爬蟲時,執行一次 def open_spider(self,spider): print('爬蟲開始') self.fp = open('./data.txt', 'w') #由於該方法會被執行調用屢次,因此文件的開啓和關閉操做寫在了另外兩個只會各自執行一次的方法中。 def process_item(self, item, spider): #將爬蟲程序提交的item進行持久化存儲 self.fp.write(item['author'] + ':' + item['content'] + '\n') return item #結束爬蟲時,執行一次 def close_spider(self,spider): self.fp.close() print('爬蟲結束')
配置文件:settings.py
#開啓管道 ITEM_PIPELINES = { 'secondblood.pipelines.SecondbloodPipeline': 300, #300表示爲優先級,值越小優先級越高 }
Scrapy遞歸爬取多頁數據:
需求:將糗事百科全部頁碼的做者和段子內容數據進行爬取切持久化存儲
# -*- coding: utf-8 -*- import scrapy from qiushibaike.items import QiushibaikeItem # scrapy.http import Request class QiushiSpider(scrapy.Spider): name = 'qiushi' allowed_domains = ['www.qiushibaike.com'] start_urls = ['https://www.qiushibaike.com/text/'] #爬取多頁 pageNum = 1 #起始頁碼 url = 'https://www.qiushibaike.com/text/page/%s/' #每頁的url def parse(self, response): div_list=response.xpath('//*[@id="content-left"]/div') for div in div_list: #//*[@id="qiushi_tag_120996995"]/div[1]/a[2]/h2 author=div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first() author=author.strip('\n') content=div.xpath('.//div[@class="content"]/span/text()').extract_first() content=content.strip('\n') item=QiushibaikeItem() item['author']=author item['content']=content yield item #提交item到管道進行持久化 #爬取全部頁碼數據 if self.pageNum <= 13: #一共爬取13頁(共13頁) self.pageNum += 1 url = format(self.url % self.pageNum) #遞歸爬取數據:callback參數的值爲回調函數(將url請求後,獲得的相應數據繼續進行parse解析),遞歸調用parse函數 yield scrapy.Request(url=url,callback=self.parse)
Scrapy組件:
* 解釋:引擎首先會將爬蟲文件中的起始url獲取,而且提交到調度器中。若是須要從url中下載數據,則調度器會將url經過引擎提交給下載器,下載器根據url去下載指定內容(響應體)。下載好的數據會經過引擎移交給爬蟲文件,爬蟲文件能夠將下載的數據進行指定格式的解析。若是解析出的數據須要進行持久化存儲,則爬蟲文件會將解析好的數據經過引擎移交給管道進行持久化存儲。
面試題:若是最終須要將爬取到的數據值一份存儲到磁盤文件,一份存儲到數據庫中,則應該如何操做scrapy?
答:
管道文件中的代碼爲:
#該類爲管道類,該類中的process_item方法是用來實現持久化存儲操做的。 class DoublekillPipeline(object): def process_item(self, item, spider): #持久化操做代碼 (方式1:寫入磁盤文件) return item #若是想實現另外一種形式的持久化操做,則能夠再定製一個管道類: class DoublekillPipeline_db(object): def process_item(self, item, spider): #持久化操做代碼 (方式1:寫入數據庫) return item
在settings.py開啓管道操做代碼爲:
#下列結構爲字典,字典中的鍵值表示的是即將被啓用執行的管道文件和其執行的優先級。 ITEM_PIPELINES = { 'doublekill.pipelines.DoublekillPipeline': 300, 'doublekill.pipelines.DoublekillPipeline_db': 200, } #上述代碼中,字典中的兩組鍵值分別表示會執行管道文件中對應的兩個管道類中的process_item方法,實現兩種不一樣形式的持久化操做。
- 問題:在以前代碼中,咱們歷來沒有手動的對start_urls列表中存儲的起始url進行過請求的發送,可是起始url的確是進行了請求的發送,那這是如何實現的呢?
- 解答:實際上是由於爬蟲文件中的爬蟲類繼承到了Spider父類中的start_requests(self)這個方法,該方法就能夠對start_urls列表中的url發起請求:
def start_requests(self): for u in self.start_urls: yield scrapy.Request(url=u,callback=self.parse)
【注意】該方法默認的實現,是對起始的url發起get請求,若是想發起post請求,則須要子類重寫該方法。
- 重寫start_requests方法,讓其發起post請求:
def start_requests(self): #請求的url post_url = 'http://fanyi.baidu.com/sug' # 表單數據 formdata = { 'kw': 'wolf', } # 發送post請求 yield scrapy.FormRequest(url=post_url, formdata=formdata, callback=self.parse)