python之scrapy五大核心組件

時間 2021-08-13

標籤框架異步 ide blog 隊列事務項目管理 class 欄目 Python 简体版

原文原文鏈接

-五大核心組件框架

　　-引擎（Scrapy）異步

　　　　-用來處理整個系統的數據流處理，觸發事務（框架核心）ide

　　-調度器（Schedule)blog

　　　　-用來接受引擎發過來的請求，壓入隊列中，並在引擎再次請求的時候返回，能夠想象成一個URL（抓取網頁的網址或者說是連接）的優先隊列，由它來決定下一個要抓取的網址是什麼，同時去除重複的網址。隊列

　　-下載器（Downloader）事務

　　　　-用於下載網頁內容，並將網頁內容返回給蜘蛛（Scrapy）下載器是創建在twisted這個高效的異步模型上的ip

　　-爬蟲（Spider）項目管理

　　　　爬蟲是主要幹活的，用於從特定的網頁中提取本身須要的信息，即所謂的實體（item）。用戶也能夠從中提取出連接，讓Scrapy連接抓取下一個頁面。it

　　-項目管理（Pipeline）class

　　　　-負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證明體的有效性、清楚不須要的信息。當頁面被爬蟲解析周，將被髮送到項目管道，並通過幾個特定的次序處理數據。

相關標籤/搜索