大數據應用期末總評

做業要求來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

本案例主要分析在豆瓣爬取的《三體》短評數據,數據字段包括地址、評論時間、評論內容、評價程度、用戶名和投票數6個屬性值,將數據上傳到hdfs的hive數據倉庫中進行簡要分析。

1、創建一個運行本案例的目錄bigdatacase、dataset:



將文本拷貝到dataset目錄下並查看文件:

mysql

2、預處理文件,將csv生成txt文件:

一、刪除第一行字段:
sql

二、預處理字段:

每一個字段用\t隔開,這裏有6個字段。數據庫

3、將文本文件上傳到hive:

一、啓動hdfs:
函數

二、在HDFS上創建/bigdatacase/dataset文件夾,將文件上傳:



oop

三、啓動mysql:
大數據

四、在hive中建立數據庫dblab:
3d

五、在把hdfs中的「/bigdatabase/dataset」目錄下的數據加載到了數據倉庫的hive中的:

(在這裏遇到了一個問題就是,若是出現如下狀況,則修改下字段名稱,這裏我將date改爲riqi就能夠了):
blog

六、在hive中查看數據,查找表的前10條記錄:
排序

4、Hive數據分析:

(由於上面那張邊st_table分析的時候有錯誤分析不正確,故刪除重複上述步驟新建st3.txt文本文件,如下采用st3表,而且該文本文件由於事先已經排序好,故這裏不進行排序)
一、查詢不重複的用戶名:

經過distinct username 查詢出不重複的用戶名有多少1871個,總數量2000左右,說明大部分仍是比較真實的,但也有部分刷評論的。hadoop

二、查詢投票數前20的評價程度:

查詢結果顯示大部分仍是呈「推薦」趨勢的。
三、查詢評價爲「力薦」的數量:

四、查詢評價爲「推薦」的數量:

五、查詢評價爲「較差」的數量:

六、查詢評價爲「不好」的數量:

經過三、四、五、6的查詢能夠得出推薦和力薦的總數量達1442,佔總比的72%,較差和不好的數量佔總數的3.1%,說明大部分仍是給了好評居多。
七、查詢前10的用戶所在的城市:

經過分組排序而且去除「關注此人」這個髒數據後,查詢用戶所在城市,大部分仍是集中在一線城市,說明評論的仍是有必定的可信度的,畢竟一線城市的用戶平均閱讀水平較高。
八、查詢投票數最高的前20的用戶的評論時間:

經過查詢的到的評價時間能夠的高票評價仍是集中在201三、201四、2015,而該做品得獎時間是2015,說明評價有必定的參考性。

九、查詢北京的用戶評價的內容:

十、查詢上海、的用戶評價的內容:

十一、查詢廣州的用戶評價的內容:

經過九、十、11的分析得出一線城市用戶的評價可看出高票評價觀點鮮明,好評的居多,可是有部分不認同和反對,說明評價還有有必定的客觀性的。

4、總結

分析結果:針對在豆瓣爬取的《三體》短評,經過城市、時間、評價星級等各方面進行分析得出:短評大部分仍是比較好的,短評有好有壞,但好評居多,說明此做品具備必定的可讀性和可觀性。 經過本案例,瞭解了hdfs和hive數據倉庫的大數據分析基本的原理和操做,在海量數據處理方面,hadoop在數據容納和分析方面有着先天的優點,不過本案例的數據還不夠多體現不出。hive倉庫分析其實也有不少函數能夠進行大數據的處理和分析,這裏也進行了簡單的數據庫查詢。整體有待完善。

相關文章
相關標籤/搜索