本次做業要求來自於:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363mysql
Hadoop綜合大做業 要求:sql
1.將爬蟲大做業產生的csv文件上傳到HDFS數據庫
2.對CSV文件進行預處理生成無標題文本文件函數
首先創建一個用於運行本案例的目錄bigdatacaseoop
給hadoop賦予對bigdatacase的各類操做權限3d
進入bigdatacase建立一個dataset目錄用於保存數據集blog
爬蟲大做業產生的csv文件從共享文件中拷貝到當前保存數據集dataset目錄下hadoop
在本地查看數據集get
預處理:博客
①序號列在此沒有意義,從共享文件中刪掉而後從新導入到該目錄下處理,得出最終的預處理數據
② 使用awk腳本(com_pre_deal.sh)稍做處理,分隔開每一列
執行com_pre_deal.sh腳本文件,來對comments.csv進行數據預處理
查看生成的user_comment.txt,能夠看到每一個用戶評價的各字段(用戶名、短評內容、觀看狀況、評分推薦、評論時間、贊同該評論次數、)都是以Tab鍵距離隔開,預處理完成。
啓動hdfs
在hdfs上創建/bigdatacase/dataset文件夾
把user_comment.txt上傳到HDFS中,並查看前10條記錄
3.把hdfs中的文本文件最終導入到數據倉庫Hive中
4.在Hive中查看並分析數據
使用netstat -tunlp 查看端口 :3306 LISION肯定已經啓動了MySql數據庫(不然使用$service mysql start啓動)
啓動Hive,並建立一個數據庫dblab
建立外部表,把HDFS中的「/bigdatacase/dataset」目錄下的數據(注意要刪除以前練習時的數據user_table.txt,只剩下目標數據,不然會把數據疊加在一塊兒!)加載到了數據倉庫Hive中
在Hive中查看數據
5.用Hive對爬蟲大做業產生的進行數據分析,寫一篇博客描述你的分析過程和分析結果。(10條以上的查詢分析)
①查詢統計總數據量
②用聚合函數count()加上distinct,查出主鍵user_name不重複的數據有多少條
③查詢前10贊同該評論的評論內容
④查詢後10贊同該評論的評論內容
⑤查詢統計前10高評評論時間;
⑥統計高評價(」力薦」)的數量
⑦統計」推薦」的數量
⑧統計「還行」的數量
⑨統計「較差」的數量
⑩統計「不好」的數量
總結:
所爬取的數據都是用戶觀看事後的評論,用have進行了數據分析,從影評數據總量、用戶名爲主鍵不重複數(有些用戶名是[已註銷]狀態,會被忽略)、查看前十高評內容、低評內容、評論時間、評分推薦各類狀況加以分析得出《無問西東》電影仍是很值的一看的,包含着濃濃的家國情懷和成長過程對自個人認識也起到了必定的幫助;不足:因爲IP被封,爬取到的數據比較少只有大概500條,因此分析的結果可能不是很客觀,算是一種抽樣檢查,