1.將爬蟲大做業產生的csv文件上傳到HDFS數據庫
3.把hdfs中的文本文件最終導入到數據倉庫Hive中spa
1、啓動hdfs:3d
2、查看是否上傳成功,本文件爲ddd.txtblog
3、啓動數據庫:博客
4、在hive中建立數據庫dbhhh:數據分析
5、使用dbhhh數據庫建立表格命名爲ddd文件上傳
4.在Hive中查看並分析數據sed
1、在hive中查看數據,查找表的前10條記錄:csv
2、篩選評論數量較多的標題,查看人們比較關心的熱門問題im
3、篩選結合閱讀量較高的標題
篩選結合閱讀量和評論量,能夠獲得人們感興趣的人們話題爲東興證券的各種資金問題較感興趣
5.用Hive對爬蟲大做業產生的進行數據分析,寫一篇博客描述你的分析過程和分析結果。(10條以上的查詢分析)