Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

分組取Top N在日常需求中很多見: 每個班級分數前三名同學的名字以及分數 各省指標數量前三的市的名字  等等需求,主要思想就是在某一個分區(班級,省)中取出該分區Top N的數據 測試數據格式: 如上圖,字段含義爲,班級,學生姓名,分數 下面我們通過一個Demo來實現各班級分數前三的學生姓名以及分數 1、通過Spark core 實現: //讀取測試數據保存爲rdd val rddtext =
相關文章
相關標籤/搜索