階段性理解scrapy

0)安裝 scrapycss

pip install scrapy


1)建立一個項目html

scrapy startproject dmoz

   結構java

├── dmoz
│   ├── __init__.py 
│   ├── items.py   			# 能夠把items.py看做是mvc中的model
│   ├── pipelines.py		# pipline俗稱管道,這個文件主要用來把咱們獲取的item類型存入mongodb
│   ├── settings.py			# 須要設置一些常量,例如mongodb的數據庫名,數據庫地址和數據庫端口號等等。 
│   └── spiders				# 爬蟲Folder
│       └── __init__.py		
└── scrapy.cfg				# 部署


2)採集python

scrapy shell    #交換學習模式


scrapy crawl dmoz #自動採集模式


3)解析mongodb

response.xpath("/html/head/title")
response.css("title")


4)提取shell

response.css("title").extract() #所有提取
response.css("title").re('(\w+)') #根據正則提取
相關文章
相關標籤/搜索