《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密

最近幾周,在《隱祕的角落》熱度落去後,《三十而已》又闖進了你們的視線中,被你們不停的討論,想必沒看過這部電視劇的小夥伴們也或多或少的從朋友那裏聽到過這部電視劇吧。
做者:菜鳥哥來源:菜鳥學Python|2020-08-04 08:48
收藏
分享
最近幾周,在《隱祕的角落》熱度落去後,《三十而已》又闖進了你們的視線中,被你們不停的討論,想必沒看過這部電視劇的小夥伴們也或多或少的從朋友那裏聽到過這部電視劇吧。
《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密
《三十而已》以三位三十歲的女性視角進行展開,或多或少的體現出現實中咱們遇到的問題,更能引發你們的共鳴,所以走紅也在情理之中。今天,小編爬取了騰訊視頻的近21萬條彈幕,看看你們是如何評價這部電視劇的。
1.彈幕的抓取
首先是彈幕的抓取,小編首先獲取了電視劇每集的vid信息,而後根據vid獲取到target_id進而爬取到每集的彈幕信息。其流程以下圖所示:
《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密
對應的部分程序以下所示:
《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密
程序首先利用GetVid函數獲取每集的target_id信息,而後針對於每集電視劇,構造其彈幕的url連接,爬取每一個彈幕的評論內容,每條彈幕的點贊數,評論者的姓名等信息。
這裏,小編一共爬取了前25集的彈幕,每集電視劇小編爬取了前40頁的彈幕信息,一共是208625條彈幕信息。
2.彈幕數據分析
獲取到彈幕信息後,咱們接下來對數據進行一下簡單的分析,首先咱們對於彈幕的內容進行清洗並寫入到本地txt文件中,因爲彈幕信息會攜帶無關的人名信息,咱們須要將無關人名進行去除,並提取評論的中文內容。程序以下所示:
《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密
程序首先根據彈幕的特徵,將無關人名去除,而後利用正則表達式匹配中文,寫入到本地文件中去。
每一個用戶彈幕的數量
對於衆多的彈幕信息,咱們來看一下用戶發送的彈幕數量如何。咱們將彈幕數量按照用戶進行計數,分爲了1到9,9個區間和10以上的彈幕數量區間。
《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密
從上圖能夠看出,絕大部分的觀衆只是發了一條彈幕來證實本身來看了這部電視劇,彈幕數量在10條以上的仍是屬於少數人羣。
誰是彈幕之王
《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密
上述圖中,咱們能夠發現,「浮若年華」的用戶發送了最多的510條彈幕,什麼概念呢,在小編爬取的25集電視劇中,該用戶平均每集發送20.4條彈幕,基本上每隔兩分鐘就要來一條彈幕,可謂彈幕的高產戶。
可是彈幕數量多,並不表明着收穫的點贊數就多,咱們接下來看一下,用戶的每條彈幕收穫的平均點贊數吧。
《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密
能夠看到「追劇小奶鵝」用戶,每條彈幕收到了8233條點贊,遠遠的甩開了其餘的用戶,可謂是金句的表明用戶。
《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密
上述展現的是每一個用戶的累計點贊數和平均每條彈幕所收穫的點贊數量,因爲用戶「追劇小奶鵝」的平均每條彈幕點贊數高的離譜,所以咱們去除掉該用戶。能夠看出,用戶的累計點贊數和平均每條彈幕點贊數之間相關性不明顯。
3.彈幕內容分析
接下來,咱們來看一下你們彈幕的內容都有哪些關鍵詞吧,這裏咱們去除掉一些無謂的詞語,例如「哈哈哈」,「第一」等水彈幕,看一下你們真正的彈幕裏都包含哪些信息,入下圖所示:
《三十而已》火爆全網,我分析了21萬條彈幕,發現了這些祕密
能夠看到,你們對這部電視劇評價仍是很不錯的,並且都有涉及到劇中的一些關鍵元素,例如夫妻間的婚姻問題,以及劇中的人物故事發展等信息。
以上就是小編爲你們帶來的關於《三十而已》的數據爬取和彈幕簡單分析,反正小編看完以後,感受心情沉重許多,成年人的世界真的很複雜~~不太小編仍是很喜歡毛曉彤的,嘻嘻。
【編輯推薦】正則表達式

  1. 盤點 Python 10 大經常使用數據結構(下篇)
  2. Javascript中的8種常見數據結構(建議收藏)
  3. 數據科學家必須知道的前十大Python庫
  4. 老闆讓我從幾百個Excel中查找數據,我用Python一分鐘搞定!
  5. 開源數據挖掘工具,有這6個就足夠【責任編輯:華軒 TEL:(010)68476606】
相關文章
相關標籤/搜索