做業要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363mysql
1.對CSV文件進行預處理生成無標題文本文件,將爬蟲大做業產生的csv文件上傳到HDFSsql
首先,咱們須要在本地中建立一個/usr/local/bigdatacase/dataset文件夾,具體的步驟爲:數據庫
① cd /usr/localoop
② sudo mkdir bigdatacase3d
③ cd bigdatacase/blog
④ sudo mkdir datasethadoop
⑤ cd dataset/get
其次,咱們把lbaiduxinxi1.csv文件放到下載這個文件夾中,並使用命令把baiduxinxi1.csv文件拷貝到咱們剛剛所建立的文件夾中,具體步驟以下:數據分析
① sudo cp /home/chen/下載/lagoupy.csv /usr/local/bigdatacase/dataset/ #把baiduxinxi1csv文件拷到剛剛所建立的文件夾中文件上傳
② head -5 lbaiduxinxi1.csv #查看這個文件的前五行
對CSV文件進行預處理生成無標題文本文件,步驟以下:
① sudo sed -i '1d' baiduxinxi1.csv #刪除第一行記錄
② head -5 baiduxinxi1.csv #查看前五行記錄
接着,啓動hadoop,步驟以下:
① start-all.sh #啓動hadoop
② jps #查看hadoop是否啓動成功
以下圖所示:
最後,咱們把本地的文件上傳至HDFS中,步驟以下:
① hdfs dfs -mkdir -p /bigdatacase/dataset #在hdfs上新建/bigdatacase/dataset
② hdfs dfs -ls /
③ hdfs dfs -put ./baiduxinxi1.csv /bigdatacase/dataset #把本地文件lagoupy.csv上傳至hdfs中
④ hdfs dfs -ls /bigdatacase/dataset #查看
⑤ hdfs dfs -cat /bigdatacase/dataset/baiduxinxi1.csv | head -5 #查看hdfs中baiduxinxi1.csv的前五行
以下圖所示:
把hdfs中的文本文件最終導入到數據倉庫Hive中
首先,啓動hive,步驟以下:
① service mysql start #啓動mysql數據庫
② cd /usr/local/hive
③ ./bin/hive #啓動hive
以下圖所示:
其次,把hdfs中的文本文件最終導入到數據倉庫Hive中,並在Hive中查看並分析數據,具體步驟以下:
① create database dbpy; -- 建立數據庫
進行數據分析
查看數據庫第一的電影電視劇
查看前五條評論
查看第一條最新的五條評論
查看數據的分析
查看給電影電視劇的評分的城市前8
查看點擊量高的城市
查看評分高的電影前五的產地
查看評分高的五部電影
對最高分的電影的最新的評論
評分在9以上的電影數量