sortBy函數源碼:接收三個參數,第一個參數必須,第二個和第三個參數非必要apache
def sortBy[K]( 函數
f: (T) => K, this
ascending: Boolean = true, spa
numPartitions: Int = this.partitions.length) scala
(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] = withScope { blog
this.keyBy[K](f) 排序
.sortByKey(ascending, numPartitions) ci
.values 源碼
} it
一、例子1:按照value進行降序排序
package com.test.spark import org.apache.spark.{SparkConf, SparkContext} /** * @author admin * SortBy是SortByKey的加強版 * 按照value進行排序 */ object SparkSortByApplication { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SortSecond").setMaster("local[1]") val sc = new SparkContext(conf) val datas = sc.parallelize(Array(("cc",12),("bb",32),("cc",22),("aa",18),("bb",16),("dd",16),("ee",54),("cc",1),("ff",13),("gg",32),("bb",4))) // 統計key出現的次數 val counts = datas.reduceByKey(_+_) // 按照value進行降序排序 val sorts = counts.sortBy(_._2,false) sorts.collect().foreach(println)
sc.stop() } }
輸出結果:
(ee,54)
(bb,52)
(cc,35)
(gg,32)
(aa,18)
(dd,16)
(ff,13)
二、例子2:先按照第一個元素升序排序,若是第一個元素相同,再進行第三個元素進行升序排序
package com.sudiyi.spark import org.apache.spark.{SparkConf, SparkContext} /** * @author xubiao * SortBy是SortByKey的加強版 * 先按照第一個,再按照第三個元素進行升序排序 */ object SparkSortByApplication { def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("SortSecond").setMaster("local[1]") val sc = new SparkContext(conf) val arr = Array((1, 6, 3), (2, 3, 3), (1, 1, 2), (1, 3, 5), (2, 1, 2)) val datas2 = sc.parallelize(arr) val sorts2 = datas2.sortBy(e => (e._1,e._2)) sorts2.collect().foreach(println) sc.stop() } }
輸出結果:
(1,1,2)(1,3,5)(1,6,3)(2,1,2)(2,3,3)