做業來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363python
一、把python爬取的數據傳到linuxlinux
二、去除數據的標題數據庫
三、把數據的逗號代替爲 \t轉義字符oop
四、啓動hadoop集羣url
五、把數據文件上傳到hdfs.net
六、啓動hive3d
七、建立數據庫blog
八、建立表並把hdfs的數據導入表中hadoop
九、統計數據一共有1011條get
十、統計出不是同一用戶評論的條數
十一、列出前10名觀衆分數和時間
十二、列出前10名觀衆的評論
1三、統計評論分數大於4分(總5分)的評論條數,大部分是大於4分,說明
《何覺得家》的好評率很高。
1四、統計出男女人數(1男 2女 3未知)
1五、列出各城市的評論數
1六、統計北京的評論數
1七、統計上海的評論數
1八、統計廣州的評論數
1九、統計深圳的評論數