用Python爬蟲爬取世界上最大的小電影網站，一天可爬取500萬

時間 2019-11-16

標籤 python 爬蟲世界上最大網站一天 1天欄目 Python 简体版

原文原文鏈接

Python + Scrapy + MongoDB，天天爬取500萬的數據以上的小電影數據。python

免責聲明：本項目旨在研究Scrapy Spider Framework和MongoDB數據庫，它不能用於商業或其餘我的意圖。若是使用不當，那將是我的承擔。

該項目主要用於抓取網站，這是世界上最大的網站。這樣作能夠檢索視頻標題，持續時間，mp4連接，封面網址和直接網站的網址。
該項目快速抓取PornHub.com，但結構簡單。
該項目天天最多能夠抓取5萬個網站的視頻，具體取決於您的我的網絡。因爲個人帶寬慢，個人結果相對較慢。
爬蟲一次請求10個線程，所以能夠達到上述速度。若是您的網絡性能更高，您能夠天天請求更多線程並抓取更多視頻。具體配置請參見[預啓動配置]

環境配置

語言：python
python版本：python2.7
電腦配置：MacOS, 4G RAM
數據庫： MongoDBgit

使用說明

下載源碼

方式1

進入：https://github.com/xiyouMc/We...
點擊下載源碼，下載源碼以後解答到一個文件夾
github

方式2

須要先安裝好git,安裝好以後
git clone https://github.com/xiyouMc/WebHubBot.git
就能將源碼下載到本地數據庫

預啓動配置

若是scrapy使用pip指令安裝不上的話。建議使用anaconda進行安裝，裝好anaconda以後使用conda install scrapy指令會自動解決依賴進行安裝網絡

安裝MongoDB並在沒有配置的狀況下啓動
安裝Python依賴模塊：Scrapy，pymongo，請求或 pip install -r requirements.txt
根據須要修改配置，例如間隔時間，線程數等。

啓動

cd WebHub
python quickstart.py

運行屏幕截圖

數據庫配飾說明

保存數據的數據庫中的表是PhRes。如下是字段說明：
PhRes表：多線程

video_title:             視頻的標題，而且不能重複
link_url:                  視頻的網址
image_url:              視頻的一些截圖
video_duration:      視頻的時長，單位爲秒
quality_480p:       視頻的清晰度與下載視頻的地址

參考：https://github.com/xiyouMc/We...python2.7