python爬取並下載麥子學院全部視頻教程

1、主要思路css

  1. scrapy爬取是有課程地址及名稱
  2. 使用multiprocessing進行下載
  3. 就是爲了爬點視頻,因此是簡單的代碼堆砌
  4. 想而未實行,進行共享的方式

2、文件說明git

  1. itemsscray字段
  2. piplines.py存儲數據庫
  3. setting.py scrapy配置 須要注意的是DEFAULT_REQUEST_HEADERS的設置,須要模擬登陸
  4. mz.py是主要爬蟲 都是基本的爬蟲功能,css+xpath+正則
  5. start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的,可根據須要進行,或者所有,
  6. 本想不存儲進數據庫,直接在mz.py進行下載,但考慮到位會影響scrapy原有的性能,單獨進行下載
  1. down.py 使用multiprocessing進行下載 本來想着動態監聽scrapy在數據庫的中的結果,想實現進程的共享,調試屢次還出現問題因此直接用Pool.Map()這種比較粗暴的方式,
  2. mz.json現存取進json,但考慮到來回操做json文件,影響效率,因此改用數據庫

 

3、結果
  1. 源碼 :https://git.oschina.net/getsai/mzSpider.git
  2. 視頻地址:https://yunpan.cn/crjXKLGnkpzPk  訪問密碼 6c15



相關文章
相關標籤/搜索