python之scrapy五大核心組件

-五大核心組件框架

   -引擎(Scrapy)異步

    -用來處理整個系統的數據流處理,觸發事務(框架核心)ide

  -調度器(Schedule)blog

    -用來接受引擎發過來的請求,壓入隊列中,並在引擎再次請求的時候返回,能夠想象成一個URL(抓取網頁的網址或者說是連接)的優先隊列,由它來決定下一個要抓取的網址是什麼,同時去除重複的網址。隊列

  -下載器(Downloader)事務

    -用於下載網頁內容,並將網頁內容返回給蜘蛛(Scrapy)下載器是創建在twisted這個高效的異步模型上的ip

  -爬蟲(Spider)項目管理

    爬蟲是主要幹活的,用於從特定的網頁中提取本身須要的信息,即所謂的實體(item)。用戶也能夠從中提取出連接,讓Scrapy連接抓取下一個頁面。it

  -項目管理(Pipeline)class

    -負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證明體的有效性、清楚不須要的信息。當頁面被爬蟲解析周,將被髮送到項目管道,並通過幾個特定的次序處理數據。

相關文章
相關標籤/搜索