python爬取並下載麥子學院全部視頻教程
1、主要思路css
- scrapy爬取是有課程地址及名稱
- 使用multiprocessing進行下載
- 就是爲了爬點視頻,因此是簡單的代碼堆砌
- 想而未實行,進行共享的方式
2、文件說明git
- itemsscray字段
- piplines.py存儲數據庫
- setting.py scrapy配置 須要注意的是DEFAULT_REQUEST_HEADERS的設置,須要模擬登陸
- mz.py是主要爬蟲 都是基本的爬蟲功能,css+xpath+正則
- start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的,可根據須要進行,或者所有,
- 本想不存儲進數據庫,直接在mz.py進行下載,但考慮到位會影響scrapy原有的性能,單獨進行下載
- down.py 使用multiprocessing進行下載 本來想着動態監聽scrapy在數據庫的中的結果,想實現進程的共享,調試屢次還出現問題因此直接用Pool.Map()這種比較粗暴的方式,
- mz.json現存取進json,但考慮到來回操做json文件,影響效率,因此改用數據庫
3、結果
- 源碼 :https://git.oschina.net/getsai/mzSpider.git
- 視頻地址:
https://yunpan.cn/crjXKLGnkpzPk 訪問密碼 6c15
歡迎關注本站公眾號,獲取更多信息