Spark分組取TopN

這篇文章主要介紹在Spark中如何分組取TopN元素的兩種方法: 第一種方法基於Spark SQL的窗口函數實現, 第二種方法基於原生的RDD接口實現。 構造數據 首先咱們構造一份班級的成績數據,這份數據有三列組成,第一列是考試科目category,第二列是學生的名字name,第三列是學生的成績。以下:sql val df = spark.createDataFrame(Seq(   ("A",
相關文章
相關標籤/搜索