分析《人民的名義》的觀衆評論及總結

        咱們都知道 《人民的名義》 這部反腐大戲,湖南衛視不惜花費二億多人民幣買斷了它的獨播權。《人民的名義》上映不久,引發你們的普遍關注,觀看率直線上升,而且好多觀衆都反映更新的太慢(後面會給出證據),網上都出現了全集審評版的《人民的名義》,引發了諸多的問題。這值得咱們思考如下幾個問題?

1. 這部戲主要講的內容是什麼,有哪些主要的角色?
2. 這部戲爲何會這麼火呢?
3. 觀衆都有怎樣的評論呢?
4. 這些評論觀衆的地區分佈狀況?

下面我從數據分析的角度去思考以上幾個問題,爲此我作了以下2件事:html

1. 從書本網上,爬去《人民的名義》這本小說,而後對它作了一些簡單的文本分析(上一篇博客)python

2. 從豆瓣網上,爬去觀衆的評論,從評論數據中去發現問題,尋找答案,並啓發咱們去思考一些社會問題。算法

1、數據的爬去

      咱們要分析數據,首先是要得到數據,到今天爲止豆瓣上共有十三萬多觀衆參與了評價,相比於國產片目前評分排名第一的《大明王朝》《走向共和》,與早就上映的評分9.4的1986年版《西遊記》來講,《人們的名義》的參與評論觀衆人數遠大於它們。上映不到一個月,這數據是貌似豆瓣上前所未有的,從中咱們能夠預測在將來的國產劇中,確定會上映相似的電視劇。數據庫

 

        十三萬多觀衆的數據是如何統計的呢, 豆瓣將數據分爲三大類:看過(collections),想看(wishes),在看(doings). 每一類數據,豆瓣會隨機更新呈現出200條評論,爲了抓取這些不重複的數據,我開始保存在.txt文件中,發現每次只能抓取200條觀衆評論數據,當數據再次更新時再爬去數據時,若是改保存的文件名話,這樣會致使兩個文件保存的數據可能會重複。爲了方便處理與保存這些數據,本身決定把它們保存在MySQL數據庫中,經過python爬去數據,每次插入新的數據時,使用「insert ignore into table_name values( )」命令與定義數據庫的鍵,這樣只要我每運行一次程序就能夠獲得最新的數據。分別爬去了每一個觀衆的網址、暱稱、地址、評論時間、評論星級,評論內容。以下數據只獲取了最近三天的數據,一共有1345條數據,其中因爲collections這類觀衆的數據更新較快,爬去的數據也比較多。ide

   

在爬去過程當中,發現有些觀衆沒有地址,沒有評語,或者沒有評論星級,這給爬去數據帶來了一些麻煩(主要經過BeautifulSoup,re模塊解決), 具體的代碼後續給出。字體

        爲了關注觀衆的熱門討論話題,在豆瓣上有一個討論區,到目前爲止已有3100+討論話題。一樣把這些數據保存在MySQL數據庫中,分別抓取了每一個熱門話題的標題、發起者,迴應條數,更新時間與話題對應的網址,以下表:google

2、數據的處理與分析

1.單變量的分析

      首先考慮的是統計評論者的地區分佈狀況(假定每一個評論者的地址正確),直至目前爲止共統計了1658條數據,發現有226個城市參加了評論,咱們只給出評論數大於3的城市,以下圖所示:編碼

  圖中「不明地址」表示評論者沒有給出本身所在地址,大約有130左右。從圖中,咱們能夠發現大部分評論者主要分佈在北京,上海,杭州,深圳,廣州,成都,南京。htm

咱們能夠分析一下這數據背後的一些東西,假定評論者越多的城市,說明該城市顧客的參與度越高,商品潛在的需求量就越大,創業成功率就高;因此若是你有一顆創業的心,就多blog

去這些大城市,萬一就實現了呢。 除北上廣深外,咱們發現杭州、成都,南京的評論觀衆佔比也很大;所在國外的評論者數目排名前四是:紐約,倫敦,舊金山,新加波;從這個角

度是否能夠說明這四個城市相對其餘海外城市中國人較多呢?

  

       下面咱們分析一下觀衆的評星情況,豆瓣評分系統給出,力推(5五顆星),推薦(4顆星),,,不好(1顆星),未評星,這六種選擇。豆瓣是如何處理這些不給評星的數

據? 如何打出最後得分?(條目的評分是將豆瓣成員的評價數據加權平均計算後的結果,經過算法的調校,使得海量用戶主觀喜愛的聚合可以更客觀準確地反映條目自己的價值。)

google發現豆瓣如何具體計算評分不只僅使用的IMDB評分規則,它實際上是個很複雜的過程。所以,在這裏只給出了最近四天的統計數據,以下圖:

這與豆瓣網上給出的數據有些差異,本身分析主要的緣由是:一、統計的數據不全,只統計了最近四天的數據;二、有些觀衆未評分。

        下面咱們看看,這些評論觀衆是如何給出評語的?看以下雲詞圖:

第一幅雲詞圖是已經看過的觀衆評論語關鍵字提取,第二幅是正在看的觀衆評語的關鍵字。這兩幅雲詞中都有:演技、陸毅、祁同偉,拖沓,老骨戲,李大康等這些顯目的詞彙。

下面給出一些觀衆評語:

  觀衆迴應數排名前十大熱門討論話題:

     

        其實還有好多東西能夠值得咱們去分析,因爲時間緣由,我今天就分享到這裏。關於一些爬蟲、字體編碼等技術問題,下次再給出新的博文說明。歡迎你們查看,謝謝!!

相關文章
相關標籤/搜索