大數據應用期末總評

1.將爬蟲大做業產生的csv文件上傳到HDFS數據庫

1、創建一個運行本案例的目錄database,data並查看是否建立成功

2、將本地文件csv上傳到HDFS並查看是否上傳成功

3、查看文件:

2.對CSV文件進行預處理生成無標題文本文件2、預處理文件,將csv生成txt文件:

 

1、預處理文件,將csv生成txt文件:

 

 

3.把hdfs中的文本文件最終導入到數據倉庫Hive中spa

1、啓動hdfs:3d

2、查看是否上傳成功,本文件爲ddd.txtblog

3、啓動數據庫:博客

4、在hive中建立數據庫dbhhh:數據分析

5、使用dbhhh數據庫建立表格命名爲ddd文件上傳

 

4.在Hive中查看並分析數據sed

1、在hive中查看數據,查找表的前10條記錄:csv

 2、篩選評論數量較多的標題,查看人們比較關心的熱門問題im

 

 

3、篩選結合閱讀量較高的標題

篩選結合閱讀量和評論量,能夠獲得人們感興趣的人們話題爲東興證券的各種資金問題較感興趣

 

 

5.用Hive對爬蟲大做業產生的進行數據分析,寫一篇博客描述你的分析過程和分析結果。(10條以上的查詢分析)

相關文章
相關標籤/搜索