人生苦短,我用Pythonpython
一、windows下安裝流程:數據庫
命令行執行pip Install scrapy安裝scrapy,若是你已經配置過環境變量,則任意打開命令行窗口,輸入pip install scrapy命令,則能夠執行安裝。若沒有配置過環境變量,則進入到你python的安裝路徑下,shift+右鍵,在此處打開命令行窗口,而後輸入pip install scrapy安裝。windows
特別說明:windows下安裝,由於某些包不兼容,會出現安裝失敗的狀況,通常是twisted安裝失敗,固然也會可能其餘包安裝失敗,具體狀況根據本身安裝提示。若twisted安裝失敗,則去Python Extension Packages for Windows地址去搜索twisted,選好本身對應的版本,否則會安裝失敗,下載完以後,到下載文件所在位置,shift+右鍵,在此處打開命令行窗口,輸入pip install xxx.whl(完整文件名)。安裝完成以後,打開命令行:輸入scrapy -h驗證是否安裝成功!若提示未成功,則從新執行pip install scrapy命令。
框架
二、Mac系統安裝流程scrapy
能夠直接使用pip install scrapy進行安裝ide
若是沒有安裝pip,但是使用如下命令行語句先安裝pip:網站
一個最基本的爬蟲只須要兩部分組成:Spider(爬蟲)、Pipeline(管道)url
Spider(爬蟲):定義瞭如何爬取某個網站,包括了爬取的動做(例如是否跟進連接)以及如何從網頁的內容中提取結構化數據(爬取item)。簡單來講,Spider就是定義爬取的動做及分析某個網頁的地方。命令行
Pipeline(管道):每一個項目管道組件是一個實現簡單方法的Python類。他們接受一個項目並對其執行操做,還決定該項目是否應該繼續經過流水線或被丟棄而且再也不被處理。cdn
Pipeline(管道的做用):
Item管道的主要責任是負責處理由蜘蛛從網頁中抽取的item,它的主要任務是清洗、驗證和存儲數據。當頁面被蜘蛛解析後,將被髮送到item管道,並通過幾個特定的次序處理數據。
項目管道的用途:
一、在你要存放項目的目錄下,shift+右鍵在此處打開命令行,而後輸入:scrapy startproject MyFirstDemo,建立成功,提示如圖所示:
scrapy 框架文件解析:
建立spider文件:在cmd中切換到MyFirstDemo文件中,輸入「scrapy genspider spider_myfirstdemo baidu.com」,在spider下面生成spider_city_58文件,代碼以下:
Scrapy基本方法和屬性: