做業要求來自於:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339數據庫
本次選取的是爬取歌曲《大碗寬面》的歌評數據spa
1.將爬蟲大做業產生的csv文件上傳到HDFS3d
2.對CSV文件進行預處理生成無標題文本文件blog
3.把hdfs中的文本文件最終導入到數據倉庫Hive中get
建立數據庫:博客
建立comment表:數據分析
建立users表:文件上傳
4.在Hive中查看並分析數據csv
查詢comment表:im
查詢users表:
5.用Hive對爬蟲大做業產生的進行數據分析,寫一篇博客描述你的分析過程和分析結果。(10條以上的查詢分析)
(1)查詢點贊數前20的評論
分析:在點贊最多的評論中,有對這首歌進行科普的,也有對這首歌以及歌手錶示稱讚的,能夠看出網友對這個做品的評價還能夠。
(2)查詢點贊數前10的用戶信息
(3)查詢男女數量比例
分析:其中0表示沒有設置性別,1表示性別爲男,2表示性別爲女,從數量上能夠看出男性對這首歌更感興趣一些。
(4)男性點贊數前20的評論
分析:在男性點贊前20的評論中,能夠看出對歌手的評價比較多,也有喜歡吃麪而來的。
(5)女性點贊數前20的評論
分析:在女性點贊前20的評論中,出現最多的詞彙是哈哈哈,能夠看出這首歌還挺逗。
(6)評論用戶中的平均等級
分析:在這首歌的評論中,用戶的平均等級爲六點多,從用戶等級制度來看,評論的用戶使用這個平臺時間挺長的。
(7)評論用戶的等級分佈
分析:在等級分佈來看,用戶等級在六、七、8級的比較多,能夠看出大部分都是音樂愛好者。
(8)評論用戶中的平均年齡
(9)評論用戶的城市前十分佈
分析:根據城市編號和用戶的城市分佈來看,用戶主要分佈在北京、廣東、四川等地區。
(10)粉絲數前25的用戶的評論
分析:一些粉絲數較多的用戶也對這首歌的評價不低,說明這首歌確實很不錯吧。
(11)關注數前25的用戶評論
分析:在關注數前25的用戶評論中,出現了相同的用戶評論了多條評論,說明這些用戶熱衷於評論音樂;
(12)評論用戶中平均聽歌數量
分析:在評論用戶中,平均聽歌數量接近三千。