今日概要html
今日詳情python
一.Scrapy的日誌等級web
- 在使用scrapy crawl spiderFileName運行程序時,在終端裏打印輸出的就是scrapy的日誌信息。json
- 日誌信息的種類:cookie
ERROR : 通常錯誤併發
WARNING : 警告app
INFO : 通常的信息dom
DEBUG : 調試信息scrapy
- 設置日誌信息指定輸出:ide
在settings.py配置文件中,加入
LOG_LEVEL = ‘指定日誌信息種類’便可。
LOG_FILE = 'log.txt'則表示將日誌信息寫入到指定文件中進行存儲。
二.請求傳參
- 在某些狀況下,咱們爬取的數據不在同一個頁面中,例如,咱們爬取一個電影網站,電影的名稱,評分在一級頁面,而要爬取的其餘電影詳情在其二級子頁面中。這時咱們就須要用到請求傳參。
- 案例展現:爬取www.id97.com電影網,將一級頁面中的電影名稱,類型,評分一級二級頁面中的上映時間,導演,片長進行爬取。
爬蟲文件:
items文件:
管道文件:
三.如何提升scrapy的爬取效率
測試案例:爬取校花網校花圖片 www.521609.com
配置文件: