網絡爬蟲框架-Scrapy

時間 2019-12-17

標籤網絡爬蟲框架 scrapy 欄目系統網絡简体版

原文原文鏈接

網絡爬蟲框架-Scrapyweb

簡介：開源的Python爬蟲框架，用於抓取web站點並從頁面中提取結構化的數據；數據庫

用途普遍，可用於數據挖掘、監測和自動化測試網絡

Scrapy優勢：架構

Scrapy高級特性：框架

Scrapy架構:scrapy

Scrapy的安裝：ide

`conda install -c conda-forge scrapy`函數

檢測是否安裝成功：`scrapy bench`測試

建立工程：`scrapy startproject tutorial(項目名稱)`網站

目錄結構：

Scrapy使用步驟：

定義Item，構造爬取的對象(可選）

object1_name = scrapy.Field() 
object2_name = scrapy.Filed()
object3_name = scrapy.Field()
#建立若干個自定義爬取對象的名稱

編寫Spider，爬蟲主體

cd projectname
scrapy genspider spidername http://www.baidu.com/
#spidername(自定義Spider主體的文件名稱)，後接須要爬取的網站url。

編寫配置和Pipeline，用於處理爬取的結果(可選）
- 目的：處理解析的Item，將結果保存爲CSV文件
- 在文件-setting.py中配置CommentPipeline，其中，優先級爲300，優先級的數值越小，優先級越高。　　
- 將文件-pipelines.py中編寫的類添加到文件-setting.py中設置優先級數值。
- 在文件-pipelines.py中定義的類，添加/編寫open_spider()，close_spider()、process_item()函數。

執行爬蟲Spider：

scrapy crawl Spidername
#Spidername和Sipder主體的文件名稱一致

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。