hive基於多列去重操作

文章目錄 解決思路 例子 解決思路 一種解決思路是使用group by。即group by用於判斷數據重複的多個字段,再使用: collect_set(非group by字段)[0] 從group by獲取的數據中隨意取一個非group by字段。 例子 例如,有下表: 我需要以前兩列的字段作爲判斷重複的標準,即user_name和commentid字段。如若重複,其他列隨機取字段值就行了。如下爲
相關文章
相關標籤/搜索