hadoop綜合大做業

做業來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363python

 

一、把python爬取的數據傳到linuxlinux

 

 

二、去除數據的標題數據庫

 

三、把數據的逗號代替爲 \t轉義字符oop

 

四、啓動hadoop集羣url

 

 

 

五、把數據文件上傳到hdfs.net

 

六、啓動hive3d

 

 

七、建立數據庫blog

 

 

八、建立表並把hdfs的數據導入表中hadoop

 

 九、統計數據一共有1011條get

 

 十、統計出不是同一用戶評論的條數

 

 

十一、列出前10名觀衆分數和時間

 

十二、列出前10名觀衆的評論

 

1三、統計評論分數大於4分(總5分)的評論條數,大部分是大於4分,說明

《何覺得家》的好評率很高。

 

1四、統計出男女人數(1男 2女 3未知)

 

1五、列出各城市的評論數

 

 1六、統計北京的評論數

 

1七、統計上海的評論數 

 

1八、統計廣州的評論數

 

1九、統計深圳的評論數

 

相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息