hive group by distinct區別以及性能比較

時間 2019-12-05

標籤 hive group distinct 區別以及性能比較欄目 Hadoop 简体版

原文原文鏈接

Hive去重統計相信使用Hive的人平時會常常用到去重統計之類的吧，可是好像平時不多關注這個去重的性能問題，可是當一個表的數據量很是大的時候，會發現一個簡單的count(distinct order_no)這種語句跑的特別慢，和直接運行count(order_no)的時間差了不少，因而研究了一下。先說結論:能使用group by代替distinc就不要使用distinct，例子：git 實際論

>>阅读原文<<