今日概要html
今日詳情python
1.基於終端指令的持久化存儲mysql
2.基於管道的持久化存儲面試
scrapy框架中已經爲咱們專門集成好了高效、便捷的持久化操做功能,咱們直接使用便可。要想使用scrapy的持久化操做功能,咱們首先來認識以下兩個文件:redis
小試牛刀:將糗事百科首頁中的段子和做者數據爬取下來,而後進行持久化存儲sql
- 爬蟲文件:qiubaiDemo.py數據庫
- items文件:items.pyjson
- 管道文件:pipelines.py數據結構
- 配置文件:settings.pyapp
2.1 基於mysql的管道存儲
小試牛刀案例中,在管道文件裏將item對象中的數據值存儲到了磁盤中,若是將item數據寫入mysql數據庫的話,只須要將上述案例中的管道文件修改爲以下形式:
- pipelines.py文件
- settings.py
2.2 基於redis的管道存儲
小試牛刀案例中,在管道文件裏將item對象中的數據值存儲到了磁盤中,若是將item數據寫入redis數據庫的話,只須要將上述案例中的管道文件修改爲以下形式:
- pipelines.py文件
- 面試題:若是最終須要將爬取到的數據值一份存儲到磁盤文件,一份存儲到數據庫中,則應該如何操做scrapy?
- 答:管道文件中的代碼爲
在settings.py開啓管道操做代碼爲: