連接:https://grouplens.org/datasets/movielens/1m/python
解壓:數據庫
四個文件分別是數據介紹,電影數據表,電影評分表,用戶表函數
進入ipython,新建一個項目3d
警告緣由,C語言實現的引擎不支持某些特性,最終用Python引擎實現blog
打印列表長度,共有6040條記錄排序
查看前五條記錄ip
其中age對應的年齡段在readme表中有對應說明get
一樣方法,導入電影數據表,電影評分表數據分析
查看導入數據數量,評分表爲1000209條,電影數據表有3883條下載
查看評分表前五條數據
查看電影數據前五條
導入完成以後,咱們能夠發現這三張表相似於數據庫中的表
要進行數據分析,咱們就要將多張表進行合併纔有助於分析
先將users與ratings兩張表合併再跟movied合併
查看合併後的表長度和前十條數據
合併後的每一條記錄反映了每一個人的年齡,職業,性別,郵編,電影ID,評分,時間戳,電影信息,電影分類等一系列信息
好比咱們查看用戶id爲1的全部信息
運用數據透視
表中結構爲每一部電影男性跟女性的評分平均值
加一列評分差值
按照diff排序
先算出每部電影平均得分
對電影平均得分排序
固然,從嚴格意義上僅僅經過單一條件電影評分高低咱們還不能判斷這部電影是不是一部真正的好電影,由於評分均分跟觀影人數也有關係
先按照熱度找出熱度高的電影,有207部電影符合條件,而後咱們能夠在評分數據透視中篩選出符合條件的數據