0)安裝 scrapycss
pip install scrapy
1)建立一個項目html
scrapy startproject dmoz
結構java
├── dmoz │ ├── __init__.py │ ├── items.py # 能夠把items.py看做是mvc中的model │ ├── pipelines.py # pipline俗稱管道,這個文件主要用來把咱們獲取的item類型存入mongodb │ ├── settings.py # 須要設置一些常量,例如mongodb的數據庫名,數據庫地址和數據庫端口號等等。 │ └── spiders # 爬蟲Folder │ └── __init__.py └── scrapy.cfg # 部署
2)採集python
scrapy shell #交換學習模式
scrapy crawl dmoz #自動採集模式
3)解析mongodb
response.xpath("/html/head/title") response.css("title")
4)提取shell
response.css("title").extract() #所有提取 response.css("title").re('(\w+)') #根據正則提取