bsite庫 | 採集B站視頻信息、評論數據

騰訊課堂 | Python網絡爬蟲與文本數據分析 

1、簡介

bsite是用於採集B站用戶視頻列表頁、視頻評論數據的python包。python

2、安裝

pip install bsite

3、使用方法

3.1 初始化Bsite類

登陸B站後,使用開發者工具獲取本身瀏覽器上的的cookies。獲取方法能夠參考 京東評論實戰視頻web

from bsite import Bsite

cookies = {"cookie""登陸B站後的cookies"}
bs = Bsite(cookies=cookies)



3.2 bvid與aid轉換

B站的視頻連接瀏覽器

https://www.bilibili.com/video/BV1AE411r7ph

其中 BV1AE411r7ph 是該視頻的 bvid號, 但在B站後臺有一個與bvid對應的id號- aid微信

bvid與aid能夠互相轉化,Bsite內置了兩個轉化方法cookie

  • Bsite.aid2bvid(aid)
  • Bsite.bvid2aid(bvid)

例如將BV1AE411r7ph轉爲aid網絡

bs.bvid2aid(bvid="BV1AE411r7ph")
72010301

同理將 72010301 轉爲 bvidapp

bs.aid2bvid(aid=72010301)
BV1AE411r7ph



3.3 下載某用戶全部視頻信息

Bsite.video_list(mid, csvfpath) 獲取用戶的全部已上傳的視頻信息。例如個人B站視頻主頁https://space.bilibili.com/122592901  其中122592901就是mid編輯器

  • mid 用戶的id
  • csvfpath csv文件路徑,用於存儲視頻信息。

注意:爲了保證全部數據均能正常存儲不出錯,強制使用utf-8編碼,微軟office打開該csv會亂碼,能夠用記事本或者WPS打開ide

通常在B站查看某用戶【投稿】欄,能夠看到ta的全部上傳視頻。Bsite能夠幫咱們獲得的信息有工具

  • title、subtitle、author 標題、副標題、做者
  • aid、bvid 視頻連接的id號
  • mid 用戶的id。
  • created 上傳時間
  • description 視頻簡介
  • pic 視頻首圖
  • play 播放次數
  • length 視頻時長

例如個人B站視頻主頁https://space.bilibili.com/122592901  其中122592901就是mid

獲取DJI大疆創新 https://space.bilibili.com/232472043/video 全部投稿視頻相關信息。

bs.video_list(mid=232472043, csvfpath='dji_videos.csv')

3.4 獲取某視頻內的全部評論

Bsite.comments(aid, csvfpath)

  • aid  B站視頻的id號,若是隻有bvid沒有aid,能夠先使用內置的方法把bvid轉爲aid

  • csvfpath csv文件路徑,用於存儲評論數據。

注意:爲了保證全部數據均能正常存儲不出錯,強制使用utf-8編碼,微軟office打開該csv會亂碼,能夠用記事本或者WPS打開

採集到的評論數據包括

  • content  評論內容
  • device 評論者使用的設備
  • like 點贊數
  • rcount 該評論追評和互動數
  • ctime 評論建立時間
  • avatar 評論者頭像
  • level 評論者等級
  • sex 評論者性別
  • sign 評論者簽名
  • uname 評論者暱稱
  • mid 評論者的id
  • diag 該評論是原始評論,仍是某評論的互動

獲取該視頻 https://www.bilibili.com/video/BV1E54y1C7MF 全部的評論

aid = bs.bvid2aid('BV1E54y1C7MF')
bs.comments(aid=aid, csvfpath='comments.csv')


課程試聽

課程python語法入門和網絡爬蟲部分可免費試聽,對python感興趣的童鞋能夠收藏觀看~
試聽二維碼



優惠券領取

本課程原價298元,現有朋友圈集贊活動,集贊滿10+可得118元優惠券。參與方式

  1. 轉發本文至朋友圈,集贊10+
  2. 掃碼加維信,備註【網課優惠券】


  3. 集贊截圖私信,立得118元優惠券
  4. 購買 好評 20+ ,截圖返現 18. 88元 ~


學習方式

  1. 電腦端學習,瀏覽器百度搜【騰訊課堂】,微信掃碼登陸帳號,便可觀看學習
  2. 手機端學習,安裝【騰訊課堂app】,微信掃碼登陸帳號,便可觀看學習



本文分享自微信公衆號 - 大鄧和他的Python(DaDengAndHisPython)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索