Hadoop綜合大做業 要求:數據庫
1.將爬蟲大做業產生的csv文件上傳到HDFSoop
2.對CSV文件進行預處理生成無標題文本文件3d
3.把hdfs中的文本文件最終導入到數據倉庫Hive中blog
建立數據庫文件上傳
建立表bfc
4.在Hive中查看並分析數據書籍
查看圖書評分大於9.0前20本書的詳情,能夠看出這些都是你們很熟悉的書csv
查看圖書評分大於9.0和評論數大於10萬的圖書,顯示纔有9本,這些書都比較值得一看im
查看評論數最多,和對應的做者,前20項,你們能夠看看這些做者寫的其餘書籍d3
查看做者是魯迅的書,能夠看到魯迅寫的書評分都比較高分,基本都是8.0以上,值得推薦
查看評分大於9.0的前20項的書本價格,這樣一看不會特別貴,價格比較容易接受
查看圖書各個評分階段都有多少個,8.0分到9.0分的圖書仍是比較多的
查看做者的書的平均評論數,和平均評分,供給你們參考
查看高分的書的描述,你們能夠看完這些描述,要是感興趣能夠考慮買這本書
查看評論數少於5000的,這些書評論雖少,可是綜合評分都比較高,也能夠考慮看
查看評論數多的,而評分缺比較低,只顯示了一本,證實這本書仍是比較多人看的,可是評分不是很高