MovieLens電影數據分析

下載數據包

  連接:https://grouplens.org/datasets/movielens/1m/python

  解壓:數據庫

  四個文件分別是數據介紹,電影數據表,電影評分表,用戶表函數

進行電影數據分析

進入ipython,新建一個項目3d

從用戶表讀取用戶信息

  警告緣由,C語言實現的引擎不支持某些特性,最終用Python引擎實現blog

 打印列表長度,共有6040條記錄排序

  查看前五條記錄ip

  其中age對應的年齡段在readme表中有對應說明get

  一樣方法,導入電影數據表,電影評分表數據分析

 

  查看導入數據數量,評分表爲1000209條,電影數據表有3883條下載

  查看評分表前五條數據

  查看電影數據前五條

 

  導入完成以後,咱們能夠發現這三張表相似於數據庫中的表

  要進行數據分析,咱們就要將多張表進行合併纔有助於分析

  使用merge函數合併   

  先將users與ratings兩張表合併再跟movied合併

  查看合併後的表長度和前十條數據

 

   合併後的每一條記錄反映了每一個人的年齡,職業,性別,郵編,電影ID,評分,時間戳,電影信息,電影分類等一系列信息

  好比咱們查看用戶id爲1的全部信息

 

 查看每一部電影不一樣性別的平均評分

  運用數據透視

  

  表中結構爲每一部電影男性跟女性的評分平均值

  查看電影分歧最大的那部電影

  加一列評分差值

 

  按照diff排序

  查看評分最多的電影

  查看最熱門電影

  查看最高分電影

  先算出每部電影平均得分

  對電影平均得分排序

  固然,從嚴格意義上僅僅經過單一條件電影評分高低咱們還不能判斷這部電影是不是一部真正的好電影,由於評分均分跟觀影人數也有關係

  先按照熱度找出熱度高的電影,有207部電影符合條件,而後咱們能夠在評分數據透視中篩選出符合條件的數據

相關文章
相關標籤/搜索