Node 批量爬取頭條視頻並保存

時間 2019-12-04

標籤 node 批量頭條視頻保存简体版

原文原文鏈接

目標網站：西瓜視頻
項目功能：下載頭條號【維辰財經】下的最新20個視頻
項目地址：Github 地址
姊妹項目：批量下載美女圖集html

簡介

通常批量爬取視頻或者圖片的套路是，使用爬蟲得到文件連接集合，而後經過 writeFile 等方法逐個保存文件。然而，頭條的視頻，在須要爬取的 html 文件（服務端渲染輸出）中，沒法捕捉視頻連接。視頻連接是頁面在客戶端渲染時，經過某些 js 文件內的算法或者解密方法，根據視頻的已知 key 或者 hash 值，動態計算出來並添加到 video 標籤的。這也是網站的一種反爬措施。git

咱們在瀏覽這些頁面時，經過審覈元素，能夠看到計算後的文件地址。然而在批量下載時，逐個手動的獲取視頻連接顯然不可取。開心的是，puppeteer 提供了模擬訪問 Chrome 的功能，使咱們能夠爬取通過瀏覽器渲染出來的最終頁面。github

項目啓動

命令

npm i
npm start
複製代碼

Notice: 安裝 puppeteer 的過程稍慢，耐心等待。算法

配置文件

// 配置相關
module.exports =  {
  originPath: 'https://www.ixigua.com', // 頁面請求地址
  savePath: 'D:/videoZZ' // 存放路徑
}
複製代碼

技術點

puppeteernpm

官方APIapi

puppeteer 提供一個高級 API 來控制 Chrome 或者 Chromium。瀏覽器

puppeteer 主要做用：bash

利用網頁生成 PDF、圖片
爬取SPA應用，並生成預渲染內容（即「SSR」服務端渲染）
能夠從網站抓取內容
自動化表單提交、UI測試、鍵盤輸入等

使用到的 API：async

puppeteer.launch() 啓動瀏覽器實例
browser.newPage() 建立一個新頁面
page.goto() 進入指定網頁
page.screenshot() 截圖
page.waitFor() 頁面等待，能夠是時間、某個元素、某個函數
page.$eval() 獲取一個指定元素，至關於 document.querySelector
page.$$eval() 獲取某類元素，至關於 document.querySelectorAll
page.$('#id .className') 獲取文檔中的某個元素，操做相似jQuery

代碼示例ide

const puppeteer = require('puppeteer');
 
(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com');
  await page.screenshot({path: 'example.png'});
 
  await browser.close();
})();
複製代碼

視頻文件下載方法

下載視頻主方法

const downloadVideo = async video => {
  // 判斷視頻文件是否已經下載
  if (!fs.existsSync(`${config.savePath}/${video.title}.mp4`)) {
    await getVideoData(video.src, 'binary').then(fileData => {
      console.log('下載視頻中：', video.title)
      savefileToPath(video.title, fileData).then(res =>
        console.log(`${res}: ${video.title}`)
      )
    })
  } else {
    console.log(`視頻文件已存在：${video.title}`)
  }
}
複製代碼

獲取視頻數據

getVideoData (url, encoding) {
  return new Promise((resolve, reject) => {
    let req = http.get(url, function (res) {
      let result = ''
      encoding && res.setEncoding(encoding)
      res.on('data', function (d) {
        result += d
      })
      res.on('end', function () {
        resolve(result)
      })
      res.on('error', function (e) {
        reject(e)
      })
    })
    req.end()
  })
}
複製代碼

將視頻數據保存到本地

savefileToPath (fileName, fileData) {
  let fileFullName = `${config.savePath}/${fileName}.mp4`
  return new Promise((resolve, reject) => {
    fs.writeFile(fileFullName, fileData, 'binary', function (err) {
      if (err) {
        console.log('savefileToPath error:', err)
      }
      resolve('已下載')
    })
  })
}
複製代碼