Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

時間 2021-01-18

標籤大數據 spark spark core spark sql 分組Top N 欄目 Spark 简体版

原文原文鏈接

分組取Top N在日常需求中很多見：每個班級分數前三名同學的名字以及分數各省指標數量前三的市的名字等等需求，主要思想就是在某一個分區（班級，省）中取出該分區Top N的數據測試數據格式：如上圖，字段含義爲，班級，學生姓名，分數下面我們通過一個Demo來實現各班級分數前三的學生姓名以及分數 1、通過Spark core 實現： //讀取測試數據保存爲rdd val rddtext =

>>阅读原文<<