大數據應用期末總評

時間 2019-11-13

標籤數據應用期末總評简体版

原文原文鏈接

做業要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363mysql

　首先在本地建立一個/usr/local/bigdatacase/dataset

1.對CSV文件進行預處理生成無標題文本文件，將爬蟲大做業產生的csv文件上傳到HDFSsql

首先，咱們須要在本地中建立一個/usr/local/bigdatacase/dataset文件夾,具體的步驟爲：數據庫

① cd /usr/localoop

② sudo mkdir bigdatacase3d

③ cd bigdatacase/blog

④ sudo mkdir datasethadoop

⑤ cd dataset/get

其次，咱們把lbaiduxinxi1.csv文件放到下載這個文件夾中，並使用命令把baiduxinxi1.csv文件拷貝到咱們剛剛所建立的文件夾中，具體步驟以下：數據分析

① sudo cp /home/chen/下載/lagoupy.csv /usr/local/bigdatacase/dataset/ #把baiduxinxi1csv文件拷到剛剛所建立的文件夾中文件上傳

② head -5 lbaiduxinxi1.csv #查看這個文件的前五行

對CSV文件進行預處理生成無標題文本文件，步驟以下：

① sudo sed -i '1d' baiduxinxi1.csv #刪除第一行記錄

② head -5 baiduxinxi1.csv #查看前五行記錄

接着，啓動hadoop，步驟以下：

① start-all.sh #啓動hadoop

② jps #查看hadoop是否啓動成功

以下圖所示：

最後，咱們把本地的文件上傳至HDFS中，步驟以下：

① hdfs dfs -mkdir -p /bigdatacase/dataset #在hdfs上新建/bigdatacase/dataset

② hdfs dfs -ls /

③ hdfs dfs -put ./baiduxinxi1.csv /bigdatacase/dataset #把本地文件lagoupy.csv上傳至hdfs中

④ hdfs dfs -ls /bigdatacase/dataset #查看

⑤ hdfs dfs -cat /bigdatacase/dataset/baiduxinxi1.csv | head -5 #查看hdfs中baiduxinxi1.csv的前五行

以下圖所示：

把hdfs中的文本文件最終導入到數據倉庫Hive中

首先，啓動hive，步驟以下：

① service mysql start #啓動mysql數據庫

② cd /usr/local/hive

③ ./bin/hive #啓動hive

以下圖所示：

其次，把hdfs中的文本文件最終導入到數據倉庫Hive中，並在Hive中查看並分析數據，具體步驟以下：

① create database dbpy; -- 建立數據庫

進行數據分析

查看數據庫第一的電影電視劇

查看前五條評論

查看第一條最新的五條評論

查看數據的分析

查看給電影電視劇的評分的城市前8

查看點擊量高的城市

查看評分高的電影前五的產地

查看評分高的五部電影

對最高分的電影的最新的評論

評分在9以上的電影數量

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。