階段性理解scrapy

時間 2019-12-01

原文原文鏈接

0）安裝 scrapycss

pip install scrapy

1）建立一個項目html

scrapy startproject dmoz

結構java

├── dmoz
│   ├── __init__.py 
│   ├── items.py   			# 能夠把items.py看做是mvc中的model
│   ├── pipelines.py		# pipline俗稱管道，這個文件主要用來把咱們獲取的item類型存入mongodb
│   ├── settings.py			# 須要設置一些常量，例如mongodb的數據庫名，數據庫地址和數據庫端口號等等。 
│   └── spiders				# 爬蟲Folder
│       └── __init__.py		
└── scrapy.cfg				# 部署

2）採集python

scrapy shell    #交換學習模式

scrapy crawl dmoz #自動採集模式

3）解析mongodb

response.xpath("/html/head/title")
response.css("title")

4）提取shell

response.css("title").extract() #所有提取
response.css("title").re('(\w+)') #根據正則提取

相關標籤/搜索