Hive中distinct和Group by效率對比及處理方式

注:該Hive語法仍能夠作不少優化:創建臨時表一次性從大表中取出數據;把where條件儘可能放在一次判斷中,這裏僅針對distinct和group by討論。web 結論: 針對大量數據的去重,group by的效率要遠高於distinct。sql 從distinct轉化爲group by 簡單的轉化這裏不提,針對:一條語句裏求總記錄條數以及去重以後的記錄條數: 簡單示例: shell SELEC
相關文章
相關標籤/搜索