hive數據表去重方法

一、hive 0.8.0數據表去重方法 問題描述:hive的外部表test中,在若干字段上存在重複現象,如今須要將若干字段上值相同的多條記錄,只保其中留一條,           捨棄其他的。           解決思路:    (1)group by的方法          首先新建與test表徹底相同的新表test_pure,而後利用group by在有相同值的若干字段上進行分組統計,正常狀
相關文章
相關標籤/搜索