爬取並分析一下B站的最熱視頻排行榜,看看你們都喜歡看什麼視頻

本文的文字及圖片來源於網絡,僅供學習、交流使用,不具備任何商業用途,若有問題請及時聯繫咱們以做處理。web

如下文章源於菜鳥學Python ,做者:菜鳥哥chrome

剛接觸Python的新手、小白,能夠複製下面的連接去免費觀看Python的基礎入門教學視頻網絡

https://v.douyu.com/author/y6AZ4jn9jwKW

 

 

前言

如今你們的生活中,已經愈來愈離不開B站了,2020年的第一季度,B站月活躍用戶達到了1.72億,日活躍用戶也已經突破了5000萬個用戶。源源不斷的流量讓B站的up主們也是粉絲數目不斷暴漲,百萬粉絲的up主比比皆是。echarts

今天,小編就帶領你們來爬取並分析一下B站的最熱視頻排行榜,看看你們究竟都喜歡看什麼樣子的視頻~~less

01.榜單信息抓取

對於榜單的爬取,咱們爬取了榜單的前一百名視頻的播放量,彈幕數量,以及視頻的點贊、投幣、收藏和up主的粉絲數目等信息。學習

 

對於排行榜的播放量、彈幕數量和視頻連接的爬蟲程序,以下圖所示:網站

 

因爲網頁是靜態網頁,因此咱們能夠直接採用requests請求的方式,來獲取網頁源代碼,而後使用beautifulsoup來進行網頁的解析,並抓取咱們須要的信息。對於每一個網頁的點贊、投幣、收藏和up主的粉絲數量。spa

能夠採用咱們以前介紹的web scraper來進行抓取(牛逼的chrome插件,不用一行代碼,輕鬆爬取各大網站公開信息!(附視頻))。最後將兩部分的內容進行合併,獲得最終的抓取信息。插件

 

對於數據中存在的字符串類型的數值,例如觀看數量爲「122萬」,已經通過數據清洗轉化爲int類型的數值。3d

02.數據分析

接下來,咱們來看一下,最熱視頻排行榜前十位中,up主們的粉絲數量的分佈狀況,程序以下圖所示:

 

首先,咱們對數據按照粉絲數量的數值進行降序排序,而後將前十名的粉絲數量進行按「萬」爲單位進行計數,最後利用pyecharts中的Bar類來及進行可視化的展現。結果以下。

 

能夠看到,粉絲數量排名最高的up主是「羅翔說刑法」,粉絲數量超過了1000萬,妥妥的B站超級up主,也說明了在B站上小夥伴們不只是爲了娛樂,還能夠在B站上進行學習。你們看看前十的排行中,有沒有你們關注的up主呢?

03.可視化展現

接下來,咱們對於排行榜中彈幕的數目進行一個分佈的可視化展現:

 

程序中 ,咱們首先將彈幕的數量進行一個分段的劃分,分別爲0-5000,5000-10000一直到25000-30000,而後建立一個Pie類對象,進行數據的可視化展現。

 

能夠看到,視頻的彈幕數量中,有62%的是在0-5000的範圍內,視頻的個數隨着彈幕數量的增長而呈現快速減小的趨勢,彈幕數量在25000到30000之間的視頻只有一個。這也符合你們正常的觀看趨勢。

那對於視頻的點贊數目的視頻分佈又是怎樣的呢?

 

上圖中橫座標對應的是不一樣的點贊數量分佈區間,利用0到2萬指的是,點贊數在0到2萬次,而縱座標對應的就是視頻的數量;

從點贊數和視頻的分佈數量來看,呈現了不規則的趨勢,點贊在2萬到4萬和12萬贊以上的視頻數目是最多的;

而點贊在0到2萬的視頻數目是最少的,看來你們對於視頻是不會吝嗇本身的「贊」;

另外一方面,相比於發彈幕,點讚的操做更加的便捷,也也許就是你們更願意點讚的緣由吧。

04.詞雲分析

最後,小編抓取了榜單排行第一位的視頻《衆所周知,貓是一種尊老愛幼的動物》的彈幕,並進行了去重,來看一下彈幕中你們說起的關鍵詞都有哪些吧。

相關文章
相關標籤/搜索