網絡爬蟲框架-Scrapyweb
簡介:開源的Python爬蟲框架,用於抓取web站點並從頁面中提取結構化的數據;數據庫
用途普遍,可用於數據挖掘、監測和自動化測試網絡
Scrapy優勢:架構
Scrapy高級特性:框架
Scrapy架構:scrapy
Scrapy的安裝:ide
`conda install -c conda-forge scrapy`函數
檢測是否安裝成功:`scrapy bench`測試
建立工程:`scrapy startproject tutorial(項目名稱)`網站
目錄結構:
Scrapy使用步驟:
scrapy startproject projectname
object1_name = scrapy.Field() object2_name = scrapy.Filed() object3_name = scrapy.Field() #建立若干個自定義爬取對象的名稱
cd projectname scrapy genspider spidername http://www.baidu.com/
#spidername(自定義Spider主體的文件名稱),後接須要爬取的網站url。
在文件-pipelines.py中定義的類,添加/編寫open_spider(),close_spider()、process_item()函數。
scrapy crawl Spidername #Spidername和Sipder主體的文件名稱一致