大數據實戰:基於Spark SQL統計分析函數求分組TopN

作大數據分析時,常常遇到求分組TopN的問題,如:求每一學科成績前5的學生;求今日頭條各個領域指數Top 30%的頭條號等等。Spark SQL提供了四個排名相關的統計分析函數:函數 dense_rank() 返回分區內每一行的排名,排名是連續的。大數據 rank() 返回分區內每一行的排名,排名可能不連續。blog percent_rank() 返回相對百分比排名。數據分析 row_number
相關文章
相關標籤/搜索