Spark排序之SortBy

時間 2019-12-19

標籤 spark 排序 sortby 欄目 Spark 简体版

原文原文鏈接

sortBy函數源碼：接收三個參數，第一個參數必須，第二個和第三個參數非必要apache

def sortBy[K]( 函數

f: (T) => K, this

ascending: Boolean = true, spa

numPartitions: Int = this.partitions.length) scala

(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] = withScope { blog

this.keyBy[K](f) 排序

.sortByKey(ascending, numPartitions) ci

.values 源碼

} it

一、例子1：按照value進行降序排序

package com.test.spark
import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author admin
  * SortBy是SortByKey的加強版
  * 按照value進行排序
  */
object SparkSortByApplication {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("SortSecond").setMaster("local[1]")
    val sc = new SparkContext(conf)
    val datas = sc.parallelize(Array(("cc",12),("bb",32),("cc",22),("aa",18),("bb",16),("dd",16),("ee",54),("cc",1),("ff",13),("gg",32),("bb",4)))
    // 統計key出現的次數
    val counts = datas.reduceByKey(_+_)
    // 按照value進行降序排序
    val sorts = counts.sortBy(_._2,false)
    sorts.collect().foreach(println)
    sc.stop()
  }
  
}

輸出結果：

(ee,54)
(bb,52)
(cc,35)
(gg,32)
(aa,18)
(dd,16)
(ff,13)

二、例子2：先按照第一個元素升序排序，若是第一個元素相同，再進行第三個元素進行升序排序

package com.sudiyi.spark
import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author xubiao
  * SortBy是SortByKey的加強版
  * 先按照第一個，再按照第三個元素進行升序排序
  */
object SparkSortByApplication {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("SortSecond").setMaster("local[1]")
    val sc = new SparkContext(conf)
    val arr = Array((1, 6, 3), (2, 3, 3), (1, 1, 2), (1, 3, 5), (2, 1, 2))
    val datas2 = sc.parallelize(arr)
    val sorts2 = datas2.sortBy(e => (e._1,e._2))
    sorts2.collect().foreach(println)

    sc.stop()

  }

}

輸出結果：

(1,1,2)(1,3,5)(1,6,3)(2,1,2)(2,3,3)

1. 【Spark】sortBy[T]和sortByKey[T]排序詳解
2. Scala中sortBy和Spark中sortBy區別
3. Spark算子[13]：sortByKey、sortBy、二次排序源碼實例詳解
4. Spark之二次排序
5. Spark二次排序
6. Spark 二次排序
7. Spark程序排錯
8. spark 二次排序
9. spark二次排序
10. Spark SQL函數之分組排序
更多相關文章...
• ADO 排序 - ADO 教程
• PHP 數組排序 - PHP教程
• 算法總結-歸併排序
• 互聯網組織的未來：剖析GitHub員工的任性之源

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。