爆雷,抖音視頻被曝,我連夜爬了微博評論,結果。。。

昨天娛樂圈又又又爆雷了,lixiaolu 和 pg1 的抖音視頻瘋傳網絡,看來嫂子就要成內子了。bash

警告:本教程僅用做學習交流,請勿用做商業盈利,違者後果自負!如本文有侵犯任何組織集團公司的隱私或利益,請告知聯繫刪除!!!網絡

挺好的,這很 pg1 啊app

今天咱們做爲純正的吃瓜羣衆,怎麼能不來圍觀下呢,仍是到娛樂聖地「微博」搞起,無論它裏面到底有多少xujia流量,反正我估計罵人的流量不會太假,啊哈哈哈哈工具

咱們使用的爬取工具仍是前面文章提到的微博輪子,具體的使用方法能夠查看這裏學習

輪子文章ui

而咱們爬取的微博就是「娛樂有飯」最新發的那個視頻,若是你還沒看,建議在飯前觀看!spa

咱們先來簡單看下這篇微博下的盛況吧3d

親情演繹型code

哈哈,說過要飯前觀看嘍cdn

暴躁粗口型

說實在的,出不出娛樂圈和咱們瓜民有啥關係?

淡定吃瓜型

沒事兒,生活那麼平淡,不來點瓜怎麼過的去呢

詩情畫意型

騷年,要是在唐朝,你確定勝過李太白啊!

最後,一圖勝千言,看盡人間百態

不過這麼看,畢竟只能看到一小部分,下面就經過微博輪子,抓取該微博下全部的評論,看看廣大羣衆們的吃瓜能量。

咱們經過程序,能夠成功抓取對應的評論信息,並獲得一個 csv 文件,裏面的內容以下

接下來就是經過 jieba 作分詞,而後生成詞雲

import jieba
import pandas as pd
from wordcloud import WordCloud
import numpy as np
from PIL import Image


font = r'C:\Windows\Fonts\FZSTK.TTF'
STOPWORDS = {"回覆", }


def wordcloud(file, name, pic=None):
    df = pd.read_csv(file, usecols=[1])
    df_copy = df.copy()
    df_copy['comment'] = df_copy['comment'].apply(lambda x: str(x).split())  # 去掉空格
    df_list = df_copy.values.tolist()
    comment = jieba.cut(str(df_list), cut_all=False)
    words = ' '.join(comment)
    img = Image.open(pic)
    img_array = np.array(img)
    wc = WordCloud(width=2000, height=1800, background_color='white', font_path=font, mask=img_array,
                   stopwords=STOPWORDS, contour_width=3, contour_color='steelblue')
    wc.generate(words)
    wc.to_file(name + '.png')


if __name__ == '__main__':
    wordcloud("1572486436comment.csv", "lixiaolu2", 'xinsui.jpg')
複製代碼

咱們獲得詞雲圖以下

能夠看到,在評論的高頻詞彙中,孩子佔比仍是蠻高的,確實,不管如何孩子都是無辜的,事情到了這個地步,保護好孩子纔是最重要的。至於究竟是作嫂子仍是作內子,who care?

最後我又打開了亮哥的微博,心疼,保重!

相關文章
相關標籤/搜索