大數據應用期末總評

 

做業要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363mysql

 

 首先在本地建立一個/usr/local/bigdatacase/dataset

1.對CSV文件進行預處理生成無標題文本文件,將爬蟲大做業產生的csv文件上傳到HDFSsql

首先,咱們須要在本地中建立一個/usr/local/bigdatacase/dataset文件夾,具體的步驟爲:數據庫

① cd /usr/localoop

② sudo mkdir bigdatacase3d

③ cd bigdatacase/blog

④ sudo mkdir datasethadoop

⑤ cd dataset/get

其次,咱們把lbaiduxinxi1.csv文件放到下載這個文件夾中,並使用命令把baiduxinxi1.csv文件拷貝到咱們剛剛所建立的文件夾中,具體步驟以下:數據分析

① sudo cp /home/chen/下載/lagoupy.csv /usr/local/bigdatacase/dataset/ #把baiduxinxi1csv文件拷到剛剛所建立的文件夾中文件上傳

② head -5 lbaiduxinxi1.csv #查看這個文件的前五行

對CSV文件進行預處理生成無標題文本文件,步驟以下:

① sudo sed -i '1d' baiduxinxi1.csv #刪除第一行記錄

② head -5 baiduxinxi1.csv #查看前五行記錄

 

接着,啓動hadoop,步驟以下:

① start-all.sh #啓動hadoop

② jps #查看hadoop是否啓動成功

以下圖所示:

 

 

最後,咱們把本地的文件上傳至HDFS中,步驟以下:

① hdfs dfs -mkdir -p /bigdatacase/dataset #在hdfs上新建/bigdatacase/dataset

② hdfs dfs -ls /

③ hdfs dfs -put ./baiduxinxi1.csv /bigdatacase/dataset #把本地文件lagoupy.csv上傳至hdfs中

④ hdfs dfs  -ls /bigdatacase/dataset #查看

⑤ hdfs dfs -cat /bigdatacase/dataset/baiduxinxi1.csv | head -5 #查看hdfs中baiduxinxi1.csv的前五行

以下圖所示:

 

把hdfs中的文本文件最終導入到數據倉庫Hive中

 首先,啓動hive,步驟以下:

① service mysql start #啓動mysql數據庫

② cd /usr/local/hive

③ ./bin/hive #啓動hive

以下圖所示:

其次,把hdfs中的文本文件最終導入到數據倉庫Hive中,並在Hive中查看並分析數據,具體步驟以下:

① create database dbpy;  -- 建立數據庫

 

 進行數據分析

查看數據庫第一的電影電視劇

查看前五條評論

查看第一條最新的五條評論

查看數據的分析

 

 查看給電影電視劇的評分的城市前8

查看點擊量高的城市

查看評分高的電影前五的產地

 

 查看評分高的五部電影

 

 對最高分的電影的最新的評論

評分在9以上的電影數量

相關文章
相關標籤/搜索