hive group by distinct區別以及性能比較

Hive去重統計 相信使用Hive的人平時會常常用到去重統計之類的吧,可是好像平時不多關注這個去重的性能問題,可是當一個表的數據量很是大的時候,會發現一個簡單的count(distinct order_no)這種語句跑的特別慢,和直接運行count(order_no)的時間差了不少,因而研究了一下。 先說結論:能使用group by代替distinc就不要使用distinct,例子:git 實際論
相關文章
相關標籤/搜索