Python + Scrapy + MongoDB,天天爬取500萬的數據以上的小電影數據。python
免責聲明:本項目旨在研究Scrapy Spider Framework和MongoDB數據庫,它不能用於商業或其餘我的意圖。若是使用不當,那將是我的承擔。
語言:python
python版本:python2.7
電腦配置:MacOS, 4G RAM
數據庫: MongoDBgit
進入:https://github.com/xiyouMc/We...
點擊下載源碼,下載源碼以後解答到一個文件夾
github
須要先安裝好git
,安裝好以後git clone https://github.com/xiyouMc/WebHubBot.git
就能將源碼下載到本地數據庫
若是scrapy使用pip指令安裝不上的話。建議使用anaconda進行安裝,裝好anaconda以後使用conda install scrapy
指令會自動解決依賴進行安裝網絡
保存數據的數據庫中的表是PhRes。如下是字段說明:
PhRes表:多線程
video_title: 視頻的標題,而且不能重複 link_url: 視頻的網址 image_url: 視頻的一些截圖 video_duration: 視頻的時長,單位爲秒 quality_480p: 視頻的清晰度與下載視頻的地址
參考:https://github.com/xiyouMc/We...python2.7