Hive分組取Top N

時間 2019-11-16

標籤 hive 分組欄目 Hadoop 简体版

原文原文鏈接

說明：code

row_number() over ([partition col1] [order by col2])排序

rank() over ([partition col1] [order by col2])it

dense_rank() over ([partition col1] [order by col2])io

它們都是根據col1字段分組，而後對col2字段進行排序，對排序後的每行生成一個行號，這個行號從1開始遞增test

col一、col2均可以是多個字段，用‘,‘分隔select

區別：分頁

1）row_number：無論col2字段的值是否相等，行號一直遞增，好比：有兩條記錄的值相等，但一個是第一，一個是第二統計

2）rank：上下兩條記錄的col2相等時，記錄的行號是同樣的，但下一個col2值的行號遞增N（N是重複的次數），好比：有兩條並列第一，下一個是第三，沒有第二查詢

3）dense_rank：上下兩條記錄的col2相等時，下一個col2值的行號遞增1，好比：有兩條並列第一，下一個是第二co

業務實例：

統計每一個學科的前三名

select * from (select *, row_number() over (partition by sub order by score desc) as od from t ) t where od<=3;

語文成績是80分的排名是多少

hive (test)> select od from (select *, row_number() over (partition by sub order by score desc) as od from t ) t where sub=‘chinese‘ and score=80;

分頁查詢

hive (test)> select * from (select *, row_number() over () as rn from t) t1 where rn between1 and 5;

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。