Hadoop綜合大做業

Hadoop綜合大做業 要求:數據庫

1.將爬蟲大做業產生的csv文件上傳到HDFSoop

 

2.對CSV文件進行預處理生成無標題文本文件3d

 

3.把hdfs中的文本文件最終導入到數據倉庫Hive中blog

建立數據庫文件上傳

建立表bfc

 

 

4.在Hive中查看並分析數據書籍

查看圖書評分大於9.0前20本書的詳情,能夠看出這些都是你們很熟悉的書csv

 

 查看圖書評分大於9.0和評論數大於10萬的圖書,顯示纔有9本,這些書都比較值得一看im

 查看評論數最多,和對應的做者,前20項,你們能夠看看這些做者寫的其餘書籍d3

 

 查看做者是魯迅的書,能夠看到魯迅寫的書評分都比較高分,基本都是8.0以上,值得推薦

 

 查看評分大於9.0的前20項的書本價格,這樣一看不會特別貴,價格比較容易接受

 

 查看圖書各個評分階段都有多少個,8.0分到9.0分的圖書仍是比較多的

 查看做者的書的平均評論數,和平均評分,供給你們參考

 查看高分的書的描述,你們能夠看完這些描述,要是感興趣能夠考慮買這本書

 

 查看評論數少於5000的,這些書評論雖少,可是綜合評分都比較高,也能夠考慮看

 查看評論數多的,而評分缺比較低,只顯示了一本,證實這本書仍是比較多人看的,可是評分不是很高

 

相關文章
相關標籤/搜索