今天下午去電影院看完了《流浪地球》,多是昨晚沒休息好的緣由,我居然在中間不當心有睡着過。python
若是滿分 10 分的話,我給 8 分,整場電影看下來比較平淡,並且須要有必定的科學和太空方面的知識(雖然我也不太懂),不然看起來可能比較費腦子。echarts
因此看完後,我至少到目前爲止好像尚未找到一個推薦別人去看這個電影的理由,固然並非說電影很差。spa
我給的 8 分是以爲電影頗有創意,這對中國的科幻電影必定是有巨大的意義的,同時這種科幻大片也應該是一個國家軟實力的象徵。code
好了,以上都僅僅是我我的觀點,回到主題,今天主要仍是來對上週 python 採集的 16w 評論數據進行簡單的可視化分析,python爬取《流浪地球》16w評論。cdn
今天主要從【全國觀衆地域分佈】、【觀衆地域排行榜單】、【評論詞雲圖】、【觀衆評論數量與日期的關係】、【觀衆評論數量與時間的關係】這五個方面進行分析,注意這裏涉及的全部分析都是基於python爬取《流浪地球》16w評論 文章中獲取的 16w 評論數據。blog
數據處理和統計用的 pandas 和 collections 兩個庫,地圖和柱狀圖用的 pyecharts 庫。使用前,請先安裝相關三方庫,還有下面三個地圖包。ip
#安裝國家、省級、市級地圖包
pip install echarts-countries-pypkg
pip install echarts-china-provinces-pypkg
pip install echarts-china-cities-pypkg
複製代碼
一、全國觀衆地域分佈ci
從地圖中能夠看出,全國觀衆主要分佈在東南、中部、北部,從顏色也能夠大概看出(紅色表明觀衆最多),各省會城市的觀衆居多,與實際的經濟、消費水平基本相符。源碼
二、觀衆地域排行榜單pandas
找出全國各地觀衆最多的排名前 20 的城市,北京觀衆最多,不愧是首都,讓人驚喜的是成都位列第三,超過了廣州和上海,其餘的基本上都是各省會城市了。
我以爲從這些數據中基本能夠反映一個城市的經濟實力和消費水平了,因此若是要考慮投資買房等能夠優先考慮這 20 個城市了。
三、評論詞雲圖
這個詞雲圖就更直觀了,16w 評論中出現的詞越多,在這張詞雲圖中的字號就會越大。能夠看到你們評論最多的詞是 "好看" "中國" "科幻電影" "不錯" "國產" "好萊塢" 等。
四、觀衆評論數量與日期的關係
經過觀衆的評論日期能夠看出,大年初一上映第一天的評論並很少,多是大年初一你們都在家裏和家人團聚,從初二開始評論數就開始遞增了,說明這電影上映後愈來愈火。
因爲我當時採集數據的時間是 17 日,並且 10 日到 17 日的數據有部分缺乏,因此從 10 往後的數據應該就不夠準確了。
五、觀衆評論數量與時間的關係
從圖中能夠看出,評論的時間主要集中於下午 15-20 點和 21-24 點,這電影時長爲 2 小時,因此把評論時間往前移 2 小時即基本就是看電影時間。能夠看出你們都是中午吃完午餐 (13點左右) 和晚上吃完晚飯 (19點左右) 再去看電影的,並且晚上看電影的人更多一些。
以上就是對《流浪地球》 16w 評論的可視化分析,分析結果僅表明我的觀點。
本文涉及的完整 python 源碼及源數據,請在公衆號【譚某人】後臺回覆關鍵字【流浪地球】獲取。