課程評分標準:數據庫
考勤 10oop
平時做業 303d
爬蟲大做業 20blog
Hadoop生態安裝與配置 20博客
Hadoop綜合大做業 20數據分析
12周演示檢查:《爬蟲大做業》和《Hadoop安裝與配置》文件上傳
Hadoop綜合大做業 要求:配置
1.用Hive對爬蟲大做業產生的文本文件(或者英文詞頻統計下載的英文長篇小說)進行詞頻統計。csv
詞頻分析英文小說:連接:https://pan.baidu.com/s/1ns-TjuHEU2WVpHZWWVFj9g 密碼:61ua下載
PS:因爲在最後數據展示的時候 把前面所打的代碼過頁處理。利用上一條截圖以下
下面前2句至關於 start-all.sh 進入HDFS環境
2.用Hive對爬蟲大做業產生的csv文件進行數據分析,寫一篇博客描述你的分析過程和分析結果。
將數據以csv格式上傳到hdfs
進入文件路徑並查看數據前5
將文件上傳到HDFS上
查看上傳成功的文件的前20個數據
進入hive環境
建立數據庫和表 並將文件複製到表中
查看數據總條數
根據count查看數據的前50條
心得:在單詞統計輸出中加多一個逗號以方便造成CSV格式文件。在Hadoop中運行的時候 最後數據顯示的結果全是NULL,可是目前還不知道是什麼緣由。多是在分詞的時候用上了逗號 使數據成爲了,+數據 致使數據沒法辨別成整數。