用Python爬蟲爬取世界上最大的小電影網站,一天可爬取500萬

Python + Scrapy + MongoDB,天天爬取500萬的數據以上的小電影數據。python

免責聲明:本項目旨在研究Scrapy Spider Framework和MongoDB數據庫,它不能用於商業或其餘我的意圖。若是使用不當,那將是我的承擔。
  • 該項目主要用於抓取網站,這是世界上最大的網站。這樣作能夠檢索視頻標題,持續時間,mp4連接,封面網址和直接網站的網址。
  • 該項目快速抓取PornHub.com,但結構簡單。
  • 該項目天天最多能夠抓取5萬個網站的視頻,具體取決於您的我的網絡。因爲個人帶寬慢,個人結果相對較慢。
  • 爬蟲一次請求10個線程,所以能夠達到上述速度。若是您的網絡性能更高,您能夠天天請求更多線程並抓取更多視頻。具體配置請參見[預啓動配置]

環境配置

語言:python
python版本:python2.7
電腦配置:MacOS, 4G RAM
數據庫: MongoDBgit

使用說明

下載源碼

方式1

進入:https://github.com/xiyouMc/We...
點擊下載源碼,下載源碼以後解答到一個文件夾
在這裏插入圖片描述github

方式2

須要先安裝好git,安裝好以後
git clone https://github.com/xiyouMc/WebHubBot.git
就能將源碼下載到本地數據庫

預啓動配置

若是scrapy使用pip指令安裝不上的話。建議使用anaconda進行安裝,裝好anaconda以後使用conda install scrapy指令會自動解決依賴進行安裝網絡

  • 安裝MongoDB並在沒有配置的狀況下啓動
  • 安裝Python依賴模塊:Scrapy,pymongo,請求或 pip install -r requirements.txt
  • 根據須要修改配置,例如間隔時間,線程數等。

啓動

  • cd WebHub
  • python quickstart.py

運行屏幕截圖

在這裏插入圖片描述
在這裏插入圖片描述

數據庫配飾說明

保存數據的數據庫中的表是PhRes。如下是字段說明:
PhRes表:多線程

video_title:             視頻的標題,而且不能重複
link_url:                  視頻的網址
image_url:              視頻的一些截圖
video_duration:      視頻的時長,單位爲秒
quality_480p:       視頻的清晰度與下載視頻的地址

參考:https://github.com/xiyouMc/We...python2.7

相關文章
相關標籤/搜索