python實現視頻下載

最近一兩年短視頻業務風生水起,各個視頻網站都有各自特點的短視頻內容。若是有這樣一個程序,能夠把各大視頻網站的熱門用戶最新發布的視頻都下載下來,不只方便本身觀看,還能夠將沒有版權的視頻發佈在我的社交網站上,增長本身的人氣,豈不美哉?python

parker就是這樣一個項目(項目地址:https://github.com/LiuRoy/parker),它採用celery框架定時爬取用戶視頻列表,將最新發布的視頻經過you-get異步下載,能夠很方便地實現分佈式部署。由於各個網站的頁面佈局和接口更新比較頻繁,爲了保證程序的高可用,特地增長了Statsd監控,方便及時發現出錯。mysql

代碼架構

代碼架構

目前parker中只實現了B站和秒拍的下載,從框架圖能夠看出,針對每一類網站,須要實現兩個異步接口:從用戶視頻主頁解析發佈視頻的播放地址、根據播放地址下載視頻。所以增長網站類型,不須要修改原來的代碼,只須要添加新的解析和下載接口便可。針對視頻下載完成以後的後續操做,我尚未實現,你們能夠根據本身的需求自由的去實現。git

在運行的時候,celery會將配置好的優質用戶列表定時發送到對應網站的解析接口異步執行,篩選出最新發布的視頻播放地址,交給對應的下載接口異步下載,下載完成以後再異步調用後續操做。所以須要啓動一個celery beat進程發送定時任務,以及若干celery異步任務去執行解析和下載操做,對於比較大的視頻,下載會至關耗時,建議根據任務列表的多少合理分配異步任務的個數。github

程序運行

經驗證,此程序能夠在ubuntu和mac下正常運行, 因爲本地windows下的celery沒法正常啓動,因此沒有在windows環境作過驗證。redis

依賴庫安裝

python版本爲3.5,進入項目目錄後,執行:sql

pip install -r requirements.txt

建立數據庫表

提早在數據庫中建好兩張表(sql: https://github.com/LiuRoy/parker/blob/master/spider/models/tables.sqldocker

參數配置

config路徑下的logging.yaml、params.yaml、sites.yaml分別對應日誌配置、運行參數配置、熱門用戶配置。數據庫

日誌配置

debug模式下日誌會直接輸出在標準輸出流,release模式下會將日誌內容輸出到文件中,所以須要配置輸出日誌文件。ubuntu

運行配置

  • mode debug調試模式,此模式下日誌指向標準輸出,而且沒有監控數據;release模式下,日誌輸出到制定文件,而且有監控數據。
  • broker_url 對應於celery的BROKER_URL,能夠配置爲redis或者rabbitmq
  • mysql_url 數據庫地址,須要提早建好兩張表
  • download_path 視頻下載路徑
  • statsd_address 監控地址
  • video_number_per_page 每次從用戶視頻主頁解析出多少條視頻播放地址,由於大部分用戶每次發佈的視頻個數不多,只須要設置成一個很小的值便可。在初次運行的時候,也不會下載大量久遠的視頻。
  • download_timeout 視頻下載的超時時間

熱門用戶配置

parker會根據此配置生成一份celery beat scheduler列表。windows

  • name 規則是<網站類型>-<任務id>,parker會根據此做爲scheduler任務名稱
  • url 用戶的發佈視頻主頁
  • task 對應的celery解析異步任務
  • minute 多少分鐘檢查一次用戶視頻列表

啓動任務

進入項目目錄,執行下面命令啓動celery worker

celery -A spider worker

執行下面命令啓動celery beat定時任務

celery -A spider beat

監控

強烈安利一個docker鏡像 https://hub.docker.com/r/samuelebistoletti/docker-statsd-influxdb-grafana/,一分鐘配好監控環境有木有。以後只須要添加執行成功和執行異常的打點數據,就能夠方便的監控程序是否正常運行了。

監控

相關文章
相關標籤/搜索