小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

朱小五 凹凸數據
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析
看到標題,
啪的一下你就進來了吧!html

若是有常常刷B站的小夥伴,確定都知道B站鬼畜如今的頂流是誰?web

印度:沒錯正是在下json

那必須是當代大師渾元形意太極拳掌門人「馬保國」先生啊!
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析api

實話講,馬保國走進你們視野仍是他5月份PK被人連續KO三次。app

不過如今他在鬼畜區的主要素材倒是馬保國更早時候的一些視頻。
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析ide

好比2020年一月份,右眼被蹭了一下的馬老師面帶微笑,爲咱們生動形象地講述了健身房裏的年輕人是如何不講武德,偷襲他的故事。url

小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析
在視頻裏,他控訴踢館的年輕人 「 不講武德 」 ,勸他 「 耗子尾汁 」 。能夠做爲B站入站題目,建議全文背誦。3d

B站這個小機靈鬼,甚至還給馬老師專門開了專欄,這爲咱們後續爬取數據也帶來了便利。
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析code

跟平時爬取B站不太同樣,在B站的馬保國專欄下,F12能夠輕鬆找到接口。視頻

https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30

解析JSON後咱們須要的數據均可以得到。

小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析
其中要提到一點,url中的offest從解析上一個url的json中獲取,如以下圖所示。

小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析
經過簡短的爬蟲代碼,

很快啊,很快就爬取了1.4萬條馬保國先生的視頻數據。

def get_data(url,headers):
    data_m = pd.DataFrame(columns=['id','name','view_count','like_count','duration','author_name','author_id','bvid'])
    html = requests.get(url,headers=headers).content
    data = json.loads(html.decode('utf-8'))
    offset = data['data']['offset']
    print(offset)
    for j in range(30):
        data_m = data_m.append({'id':data['data']['list'][j]['id'],'name':data['data']['list'][j]['name'],
                            'view_count':data['data']['list'][j]['view_count'],'like_count':data['data']['list'][j]['like_count'],
                            'duration':data['data']['list'][j]['duration'],'author_name':data['data']['list'][j]['author_name'],
                            'author_id':data['data']['list'][j]['author_id'],'bvid':data['data']['list'][j]['bvid']},ignore_index=True)
    return(offset,data_m)

小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析
1.4萬條數據預覽
咱們先進行簡單的數據整理(播放量有的是萬爲單位)後,將1.4萬個視頻按照播放量和點贊量製做了一個散點圖。
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

能夠看到什麼纔是「頂流」的話題,播放量幾百萬,點贊量幾十萬的相關視頻特別多。

按照播放量排序一下。
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

第一名就是今年一月份相聲泰斗馬老師經典單口相聲!!!
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

那按照點贊量呢?
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析
第一名是來自鬼畜up主的伊麗莎白鼠「武 林 高 手」!

而懂王與馬老師的聯動表現也很優秀!

其中幾個特效向的表現更是突出!
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

因爲馬老師的語錄太過經典,我決定再補充爬一下它的彈幕。
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

# 繪製詞雲圖
stylecloud.gen_stylecloud(text=' '.join(text1), 
                          collocations=False,
                          font_path=r'‪C:\Windows\Fonts\msyh.ttc',
                          icon_name='fas fa-play-circle',
                          size=653,
                          output_name='馬保國詞雲圖.png')

Image(filename='馬保國詞雲圖.png')

小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

耗子尾汁真是門面擔當!

婷婷、英國大理石、塔門說也夾雜其中。
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

最後小五想推薦幾個視頻:

一、比較喜歡的人力VOCALOID
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

二、技術向的標杆,重點是小芃授人以漁!
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

三、最後觀察者網的視頻給你們呈現了一個更多元的,「三維立體渾元」的馬老師,甚至還發掘出了一些閃光點,而非一味的玩梗。
小夥子不講武德,竟用Python爬取了B站上1.4w條馬老師視頻數據來分析

相關文章
相關標籤/搜索