騰訊課堂 | Python網絡爬蟲與文本數據分析
1、簡介
bsite是用於採集B站用戶視頻列表頁、視頻評論數據的python包。python
2、安裝
pip install bsite
3、使用方法
3.1 初始化Bsite類
登陸B站後,使用開發者工具獲取本身瀏覽器上的的cookies。獲取方法能夠參考 京東評論實戰視頻web
from bsite import Bsite
cookies = {"cookie": "登陸B站後的cookies"}
bs = Bsite(cookies=cookies)
3.2 bvid與aid轉換
B站的視頻連接瀏覽器
https://www.bilibili.com/video/BV1AE411r7ph
其中 BV1AE411r7ph 是該視頻的 bvid號, 但在B站後臺有一個與bvid對應的id號- aid微信
bvid與aid能夠互相轉化,Bsite內置了兩個轉化方法cookie
-
Bsite.aid2bvid(aid) -
Bsite.bvid2aid(bvid)
例如將BV1AE411r7ph轉爲aid網絡
bs.bvid2aid(bvid="BV1AE411r7ph")
72010301
同理將 72010301 轉爲 bvidapp
bs.aid2bvid(aid=72010301)
BV1AE411r7ph
3.3 下載某用戶全部視頻信息
Bsite.video_list(mid, csvfpath) 獲取用戶的全部已上傳的視頻信息。例如個人B站視頻主頁https://space.bilibili.com/122592901 其中122592901就是mid編輯器
-
mid 用戶的id -
csvfpath csv文件路徑,用於存儲視頻信息。
注意:爲了保證全部數據均能正常存儲不出錯,強制使用utf-8編碼,微軟office打開該csv會亂碼,能夠用記事本或者WPS打開ide
通常在B站查看某用戶【投稿】欄,能夠看到ta的全部上傳視頻。Bsite能夠幫咱們獲得的信息有工具
-
title、subtitle、author 標題、副標題、做者 -
aid、bvid 視頻連接的id號 -
mid 用戶的id。 -
created 上傳時間 -
description 視頻簡介 -
pic 視頻首圖 -
play 播放次數 -
length 視頻時長
獲取DJI大疆創新 https://space.bilibili.com/232472043/video 全部投稿視頻相關信息。
bs.video_list(mid=232472043, csvfpath='dji_videos.csv')
3.4 獲取某視頻內的全部評論
Bsite.comments(aid, csvfpath)
-
aid B站視頻的id號,若是隻有bvid沒有aid,能夠先使用內置的方法把bvid轉爲aid
-
csvfpath csv文件路徑,用於存儲評論數據。
注意:爲了保證全部數據均能正常存儲不出錯,強制使用utf-8編碼,微軟office打開該csv會亂碼,能夠用記事本或者WPS打開
採集到的評論數據包括
-
content 評論內容 -
device 評論者使用的設備 -
like 點贊數 -
rcount 該評論追評和互動數 -
ctime 評論建立時間 -
avatar 評論者頭像 -
level 評論者等級 -
sex 評論者性別 -
sign 評論者簽名 -
uname 評論者暱稱 -
mid 評論者的id -
diag 該評論是原始評論,仍是某評論的互動
獲取該視頻 https://www.bilibili.com/video/BV1E54y1C7MF 全部的評論
aid = bs.bvid2aid('BV1E54y1C7MF')
bs.comments(aid=aid, csvfpath='comments.csv')
課程試聽
優惠券領取
本課程原價298元,現有朋友圈集贊活動,集贊滿10+可得118元優惠券。參與方式
-
轉發本文至朋友圈,集贊10+ -
掃碼加維信,備註【網課優惠券】
-
集贊截圖私信,立得118元優惠券 -
購買 後 好評 20+ 字 ,截圖返現 18. 88元 ~
學習方式
-
電腦端學習,瀏覽器百度搜【騰訊課堂】,微信掃碼登陸帳號,便可觀看學習 -
手機端學習,安裝【騰訊課堂app】,微信掃碼登陸帳號,便可觀看學習
本文分享自微信公衆號 - 大鄧和他的Python(DaDengAndHisPython)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。