大數據應用期末總評Hadoop綜合大做業

做業要求來源於:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339node

1.將爬蟲大做業產生的csv文件上傳到HDFS

這次做業選取的是爬蟲《人性的弱點全集》短評數據生成的cm.csv文件;爬取的數據總數爲10991條。數據庫

cm.csv文件數據以下圖所示:oop

將cm.csv文件上存到HDFSurl

2.對CSV文件進行預處理生成無標題文本文件

csv文件數據預處理,刪除第一行字段名稱spa

編輯pre_deal.sh文件進行數據的取捨處理.net

讓pre_deal.sh文件生效,並顯示前面幾條數據3d

3.把hdfs中的文本文件最終導入到數據倉庫Hive中

在hive中建立bdlab數據庫,顯示以下:blog

由於這次使用的是bdlab的數據庫,因此在bdlab中建立相應的表爲bigdata_cmdget

4.在Hive中查看並分析數據

數據分析:圖上顯示,該爬取的數據屬性主要包括評價的日期、評價的內容、用戶名稱和星級(一些無關分析的屬性在進行數據預處理的時候已經去除,剩下的是有關數據分析的屬性)。以上顯示的數據能夠看到一些讀者對《人性的弱點全集》這本書的一些好的壞的態度。如下利用Hive進行更進一步的數據分析。cmd

5.用Hive對爬蟲大做業產生的進行數據分析,寫一篇博客描述你的分析過程和分析結果。(10條以上的查詢分析)

(1)查詢前20條用戶的星級評價

分析:上圖所示的查詢內容顯示,評星三星以上的佔較大的一部分;四星、五星的總佔比約佔一半(五星爲滿星),這說明讀者們對於《人性的弱點全集》這本書的評價仍是算中上等水平的,這也從側面反映出該書是一本不錯的書。

(2)查詢讀者給該書一星評星的短評

分析:上圖所示的查詢內容顯示,讀者們給該書評一星的緣由是讀者們認爲這本書一味的勵志,一味的給讀者灌輸一些通俗易懂卻光說不練的道理,過於的心靈雞湯。這是讀者們反感它的地方以及給出一星評價的緣由。

(3)查詢讀者給該書三星(即中評,不喜不厭的態度)評星的短評

分析:上圖所示的查詢內容顯示,讀者們認爲該書的內容是有用的,對於人的成長也是有必定的幫助的,可是對於書本推銷式的表達方式讀者仍是略顯反感;整本書讀下來也略顯枯燥。這些都是讀者們評三星的不喜不厭的緣由。

(4)查詢讀者給該書五星評星的短評

分析:上圖所示的查詢內容顯示,讀者們給該書評五星的緣由是讀者們認爲這是一本不錯的書,也很是的經典,能給人深省和能讀懂一些道理會讓讀者有一些感觸,是值得一看的經典之書。因此讀者買帳的地方可能就是該書能給讀者帶來一些感觸檢討和一些道理。

(5)查詢讀者高評星與低評星數量(高低評星以三星爲界限)

分析:上圖所示查詢內容顯示,高評星(4星、5星)的數量爲8360條,低評星(1星、2星)的數量爲722條。從數量上比較能夠知道讀者對於《人性的弱點全集》這本書大致是持好的敏感度的,大多的讀者認爲這是一本好書,整體的評價也是好的趨向的。

 (6)查詢評五星的用戶名

(7)查詢cm.csv文件數據中用戶名不重複的數據量

分析:上圖所示查詢內容顯示,用戶名不重複評論的數據爲4958條,差很少佔數據量的一半,說明爬取的數據中因用戶名重複的數據仍是較多的,也說明的是同一個用戶有過屢次評論的可能,衍生的一個多是同一個用戶名的用戶不一樣時間屢次閱讀該書從而發表的不一樣的評價;若是是這個可能同一個用戶評論的內容也仍是擁有參考價值的,可是仍是要注意過多的數據重複。

(8)查詢cm.csv文件數據中評論不重複的數據量

分析:上圖所示查詢內容顯示,評論內容不重複的數據爲5627條,佔爬取總數據的一半往上。說明有5627條讀者評論數據不存在重複,可用性的數據量仍是較大的;較大的可用性數據量在作數據分析的時候是可以更準確的把握讀者的對該書的態度和整體的評價的,因此這次的可用性數據和這次的數據分析是有必定的意義和參考價值的。

(9)查詢讀者給該高評價的短評

分析:上圖所示查詢內容顯示,讓人受益不淺、啓發、勵志、實用和值得深思等是讀者給該書高評價的緣由,這些都是讀者買該書帳的地方。一個繁雜的社會、一個誰都不容易的社會氛圍須要一些正面的東西來給人們一些前進的力量,讀者可能能夠在書中找到心裏共鳴的地方因此喜歡這本書也因此給該書高的評價。

(10)查詢三星評價數量

分析:上圖所示查詢內容顯示,三星評價的數據量爲1806條,約佔總數據量的10%,比例不大;這也說明有將近一成的讀者對於《人性的弱點全集》這本書不感冒。

(11)查詢五星評價處於表格的序號

 

以上爲這次Hadoop綜合大做業的全部內容。從Ubuntu到MySQL到Hadoop到hbase到hive再到整個Hadoop整個環境的配置完成,這一路下來都是爲最後的這個綜合做業作準備。這期間,遇到過這個系統環境安裝配置好到進不去hive,遇到過輸入法的輸入出錯,遇到過格式化丟失Datanode等一系列的問題;這個過程必須是細心謹慎的,要不就是一步錯後面就會卡死沒法進行下去。學了幾回這些內容,此次是比較有條理的一次。

相關文章
相關標籤/搜索