大數據應用期末總評

時間 2019-11-17

標籤數據應用期末總評简体版

原文原文鏈接

做業要求來源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

本案例主要分析在豆瓣爬取的《三體》短評數據，數據字段包括地址、評論時間、評論內容、評價程度、用戶名和投票數6個屬性值，將數據上傳到hdfs的hive數據倉庫中進行簡要分析。

1、創建一個運行本案例的目錄bigdatacase、dataset：

將文本拷貝到dataset目錄下並查看文件：

mysql

2、預處理文件，將csv生成txt文件：

一、刪除第一行字段：
sql

二、預處理字段：

每一個字段用\t隔開，這裏有6個字段。數據庫

3、將文本文件上傳到hive：

一、啓動hdfs:
函數

二、在HDFS上創建/bigdatacase/dataset文件夾，將文件上傳：

oop

三、啓動mysql：
大數據

四、在hive中建立數據庫dblab：
3d

五、在把hdfs中的「/bigdatabase/dataset」目錄下的數據加載到了數據倉庫的hive中的：

（在這裏遇到了一個問題就是，若是出現如下狀況，則修改下字段名稱，這裏我將date改爲riqi就能夠了）：
blog

六、在hive中查看數據，查找表的前10條記錄：
排序

4、Hive數據分析：

（由於上面那張邊st_table分析的時候有錯誤分析不正確，故刪除重複上述步驟新建st3.txt文本文件，如下采用st3表，而且該文本文件由於事先已經排序好，故這裏不進行排序）
一、查詢不重複的用戶名：

經過distinct username 查詢出不重複的用戶名有多少1871個，總數量2000左右，說明大部分仍是比較真實的，但也有部分刷評論的。hadoop

二、查詢投票數前20的評價程度：

查詢結果顯示大部分仍是呈「推薦」趨勢的。
三、查詢評價爲「力薦」的數量：

四、查詢評價爲「推薦」的數量：

五、查詢評價爲「較差」的數量：

六、查詢評價爲「不好」的數量：

經過三、四、五、6的查詢能夠得出推薦和力薦的總數量達1442，佔總比的72%，較差和不好的數量佔總數的3.1%，說明大部分仍是給了好評居多。
七、查詢前10的用戶所在的城市：

經過分組排序而且去除「關注此人」這個髒數據後，查詢用戶所在城市，大部分仍是集中在一線城市，說明評論的仍是有必定的可信度的，畢竟一線城市的用戶平均閱讀水平較高。
八、查詢投票數最高的前20的用戶的評論時間：

經過查詢的到的評價時間能夠的高票評價仍是集中在201三、201四、2015，而該做品得獎時間是2015，說明評價有必定的參考性。

九、查詢北京的用戶評價的內容：

十、查詢上海、的用戶評價的內容：

十一、查詢廣州的用戶評價的內容：

經過九、十、11的分析得出一線城市用戶的評價可看出高票評價觀點鮮明，好評的居多，可是有部分不認同和反對，說明評價還有有必定的客觀性的。

4、總結

分析結果：針對在豆瓣爬取的《三體》短評，經過城市、時間、評價星級等各方面進行分析得出：短評大部分仍是比較好的，短評有好有壞，但好評居多，說明此做品具備必定的可讀性和可觀性。經過本案例，瞭解了hdfs和hive數據倉庫的大數據分析基本的原理和操做，在海量數據處理方面，hadoop在數據容納和分析方面有着先天的優點，不過本案例的數據還不夠多體現不出。hive倉庫分析其實也有不少函數能夠進行大數據的處理和分析，這裏也進行了簡單的數據庫查詢。整體有待完善。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。