利用selenium和ffmpeg爬取m3u8 ts視頻《進擊的巨人》

時間 2019-11-11

標籤利用 selenium ffmpeg m3u8 視頻進擊的巨人简体版

原文原文鏈接

需求

想看下動漫《進擊的巨人》,發現處處被和諧，找不到資源，可是在一個視頻網站找到了在線播放，https://www.55cc.cc/dongman/17890/player-2-1.html，然而不能下載下來（喜歡的東西我通常都看不少遍）html

找了下，網站沒發現robots協議，加上我用的和真人瀏覽差很少的效率來爬取，應該ok的python

因而想爬蟲爬取下，可是看源代碼發現視頻是m3u8的ts流，並且是雙層m3u8的，而且m3u8地址還隱藏在js代碼中，因而有2種處理方法：web

1.直接requests源碼，把js代碼的部分逐字解析，找出m3u8地址。chrome

2.直接調用瀏覽器渲染，將渲染後的網頁代碼拿到，就能夠看到iframe標籤中src地址了json

獲取到首層m3u8地址後就簡單了，直接requests請求到第二層m3u8地址，這就是真實地址了，下載後能夠看到是不少的ts流小文件，因而有2種處理方法了：瀏覽器

1.直接逐個獲取ts地址，然而寫到本地磁盤的同一個文件，最後轉碼到mp4(ts格式太佔空間) bash

2.直接調用ffmpeg，能根據m3u8地址下載ts流併合併爲一個文件且同步轉碼爲mp4網絡

上述均採用第二種方法，因而寫出個簡單的該網站的視頻爬蟲併發

源代碼

from selenium import webdriver
from bs4 import BeautifulSoup
import re
import requests
import os

if __name__ == '__main__':
    urls = ['https://www.55cc.cc/dongman/17890/player-2-'+str(n)+'.html' for n in range(1,14,)]
    for url in urls:
        browser = webdriver.Firefox()
        browser.get(url)
        htmldata=browser.page_source
        browser.close()
        soup = BeautifulSoup(htmldata,'html.parser')
        m3u8 = re.findall(r'(https://\S+)',soup.select('iframe[name="iFrame_play"]')[0].get('src')[1::1])[0]
        r = requests.get(m3u8).text
        m3u8_rel = m3u8.replace('index.m3u8','')+re.split('\n',r)[-1]
        ffmpeg = '"C:\\soft\\ffmpeg\\bin\\ffmpeg.exe"'
        output = "f:\\進擊的巨人\\第三季\\"+soup.title.string.replace('集在線觀看_動漫_五五影院','').replace(' ','')+".mp4"
        cmd = ffmpeg+" -i "+m3u8_rel+" -vcodec copy -acodec copy "+output
        os.system(cmd)

執行結果

總結

每次都要啓動瀏覽器，有點兒膈應人，後面仍是改爲headless瀏覽器即無界面瀏覽器(無頭瀏覽器)來渲染app

12集都要順序執行下載，有點兒慢，後續改爲併發執行，一次性同步併發執行12條cmd命令來下載，即多進程方式

優化後

把共12集由原來的串行爬取改成並行爬取，增長效率

from selenium import webdriver
from bs4 import BeautifulSoup
import re
import requests
import os

if __name__ == '__main__':
    urls = ['https://www.55cc.cc/dongman/17890/player-2-'+str(n)+'.html' for n in range(1,14,)]
    cmds = []
    command = ''
    for url in urls:
        browser = webdriver.Firefox()
        browser.get(url)
        htmldata=browser.page_source
        browser.close()
        soup = BeautifulSoup(htmldata,'html.parser')
        m3u8 = re.findall(r'(https://\S+)',soup.select('iframe[name="iFrame_play"]')[0].get('src')[1::1])[0]
        r = requests.get(m3u8).text
        m3u8_rel = m3u8.replace('index.m3u8','')+re.split('\n',r)[-1]        
        output = "f:\\進擊的巨人\\第三季\\"+soup.title.string.replace('集在線觀看_動漫_五五影院','').replace(' ','')+".mp4"
        cmd ="ffmpeg -i "+m3u8_rel+" -vcodec copy -acodec copy "+output
        cmds.append(cmd)
        #os.system(cmd)
    for i in cmds:
        command+='start cmd /c "'+i+'"&'
    os.system(command[:-1:])