Hadoop綜合大做業

 

課程評分標準:數據庫

考勤 10oop

平時做業 303d

爬蟲大做業 20blog

Hadoop生態安裝與配置 20博客

Hadoop綜合大做業 20數據分析

 

12周演示檢查:《爬蟲大做業》和《Hadoop安裝與配置》文件上傳

 

Hadoop綜合大做業 要求:配置

1.用Hive對爬蟲大做業產生的文本文件(或者英文詞頻統計下載的英文長篇小說)進行詞頻統計。csv

詞頻分析英文小說:連接:https://pan.baidu.com/s/1ns-TjuHEU2WVpHZWWVFj9g 密碼:61ua下載

PS:因爲在最後數據展示的時候 把前面所打的代碼過頁處理。利用上一條截圖以下

下面前2句至關於 start-all.sh    進入HDFS環境

 

 

2.用Hive對爬蟲大做業產生的csv文件進行數據分析,寫一篇博客描述你的分析過程和分析結果。

將數據以csv格式上傳到hdfs

 

進入文件路徑並查看數據前5

將文件上傳到HDFS上

查看上傳成功的文件的前20個數據

進入hive環境

建立數據庫和表 並將文件複製到表中

查看數據總條數

根據count查看數據的前50條

 

心得:在單詞統計輸出中加多一個逗號以方便造成CSV格式文件。在Hadoop中運行的時候 最後數據顯示的結果全是NULL,可是目前還不知道是什麼緣由。多是在分詞的時候用上了逗號  使數據成爲了,+數據 致使數據沒法辨別成整數。

相關文章
相關標籤/搜索