爬蟲學習筆記3（Scrapy安裝及基本使用）

時間 2019-11-30

原文原文鏈接

人生苦短，我用Pythonpython

Scrapy安裝

一、windows下安裝流程：數據庫

命令行執行pip Install scrapy安裝scrapy，若是你已經配置過環境變量，則任意打開命令行窗口，輸入pip install scrapy命令，則能夠執行安裝。若沒有配置過環境變量，則進入到你python的安裝路徑下，shift+右鍵，在此處打開命令行窗口，而後輸入pip install scrapy安裝。windows

特別說明：windows下安裝，由於某些包不兼容，會出現安裝失敗的狀況，通常是twisted安裝失敗，固然也會可能其餘包安裝失敗，具體狀況根據本身安裝提示。若twisted安裝失敗，則去Python Extension Packages for Windows地址去搜索twisted，選好本身對應的版本，否則會安裝失敗，下載完以後，到下載文件所在位置，shift+右鍵，在此處打開命令行窗口，輸入pip install xxx.whl（完整文件名）。安裝完成以後，打開命令行：輸入scrapy -h驗證是否安裝成功！若提示未成功，則從新執行pip install scrapy命令。
框架

二、Mac系統安裝流程scrapy

能夠直接使用pip install scrapy進行安裝ide

若是沒有安裝pip，但是使用如下命令行語句先安裝pip：網站

Scrapy爬蟲的使用

一個最基本的爬蟲只須要兩部分組成：Spider（爬蟲）、Pipeline（管道）url

Spider（爬蟲）：定義瞭如何爬取某個網站，包括了爬取的動做（例如是否跟進連接）以及如何從網頁的內容中提取結構化數據（爬取item）。簡單來講，Spider就是定義爬取的動做及分析某個網頁的地方。命令行

Pipeline（管道）：每一個項目管道組件是一個實現簡單方法的Python類。他們接受一個項目並對其執行操做，還決定該項目是否應該繼續經過流水線或被丟棄而且再也不被處理。cdn

Pipeline（管道的做用）：

Item管道的主要責任是負責處理由蜘蛛從網頁中抽取的item,它的主要任務是清洗、驗證和存儲數據。當頁面被蜘蛛解析後，將被髮送到item管道，並通過幾個特定的次序處理數據。

項目管道的用途：

清理HTML數據
驗證抓取的數據（檢查項目是否包含特定字段）
檢查重複
將刮取的項目存儲在數據庫

第一個Scrapy項目

一、在你要存放項目的目錄下，shift+右鍵在此處打開命令行，而後輸入：scrapy startproject MyFirstDemo,建立成功，提示如圖所示：

scrapy 框架文件解析：

MyFirstDemo/:該項目的Python模塊，以後將在此處加入代碼
MyFirstDemo/spiders/:放置spider代碼的目錄，在命令行使用「scrapy genspider+爬蟲名」生成的--spider文件將會被放在此目錄下。
MyFirstDemo/items.py：項目中的item文件
MyFirstDemo/pipelines.py:項目中的pipelines文件
MyFirstDemo/settings.py:項目的設置文件
scrapy.cfg:項目的配置文件，通常不須要修改，也不能刪除

建立spider文件：在cmd中切換到MyFirstDemo文件中，輸入「scrapy genspider spider_myfirstdemo baidu.com」，在spider下面生成spider_city_58文件，代碼以下：