scala 函數式編程之集合操做

Scala的集合體繫結構

 

// Scala中的集合體系主要包括:IterableSeqSetMap。其中Iterable是全部集合trait的根trai。這個結構與Java的集合體系很是類似。編程

// Scala中的集合是分紅可變和不可變兩類集合的,其中可變集合就是說,集合的元素能夠動態修改,而不可變集合的元素在初始化以後,就沒法修改了。分別對應scala.collection.mutablescala.collection.immutable兩個包。api

// Seq下包含了RangeArrayBufferList等子trait。其中Range就表明了一個序列,一般可使用「1 to 10」這種語法來產生一個RangeArrayBuffer就相似於Java中的ArrayListapp

 

 

List

// List表明一個不可變的列表編程語言

// List的建立,val list = List(1, 2, 3, 4)函數式編程

// Listheadtailhead表明List的第一個元素,tail表明第一個元素以後的全部元素,list.headlist.tail函數

// List有特殊的::操做符,能夠用於將headtail合併成一個List0 :: listspa

// ::這種操做符要清楚,在spark源碼中都是有體現的,必定要可以看懂!scala

// 若是一個List只有一個元素,那麼它的head就是這個元素,它的tailNil3d

 

// 案例:用遞歸函數來給List中每一個元素都加上指定前綴,並打印加上前綴的元素對象

def decorator(l: List[Int], prefix: String) {

  if (l != Nil) {

    println(prefix + l.head)

    decorator(l.tail, prefix)

  }

}

 

 

 

 

 

 

 

 

LinkedList

 

// LinkedList表明一個可變的列表,使用elem能夠引用其頭部,使用next能夠引用其尾部

// val l = scala.collection.mutable.LinkedList(1, 2, 3, 4, 5); l.elem; l.next

 

// 案例:使用while循環將LinkedList中的每一個元素都乘以2

val list = scala.collection.mutable.LinkedList(1, 2, 3, 4, 5)

var currentList = list

while (currentList != Nil) {

  currentList.elem = currentList.elem * 2

  currentList = currentList.next

}

 

 

 

 

// 案例:使用while循環將LinkedList中,從第一個元素開始,每隔一個元素,乘以2

val list = scala.collection.mutable.LinkedList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

var currentList = list

var first = true

while (currentList != Nil && currentList.next != Nil) {

  if (first) { currentList.elem = currentList.elem * 2; first = false }

  currentList  = currentList.next.next

  if (currentList != Nil) currentList.elem = currentList.elem * 2

}

 

 

 

 

Set

//Set 表明一個沒有重複元素的集合

 

 

 

 

// 將重複元素加入Set是沒有用的,好比val s = Set(1, 2, 3); s + 1; s + 4

// 並且Set是不保證插入順序的,也就是說,Set中的元素是亂序的,val s = new scala.collection.mutable.HashSet[Int](); s += 1; s += 2; s += 5

 

// LinkedHashSet會用一個鏈表維護插入順序,val s = new scala.collection.mutable.LinkedHashSet[Int](); i += 1; s += 2; s += 5

 

// SrotedSet會自動根據key來進行排序,val s = scala.collection.mutable.SortedSet("orange", "apple", "banana")

 

 

 

 

 

集合的函數式編程

// 集合的函數式編程很是很是很是之重要!!!

// 必須徹底掌握和理解Scala的高階函數是什麼意思,Scala的集合類的mapflatMapreducereduceLeftforeach等這些函數,就是高階函數,由於能夠接收其餘函數做爲參數

// 高階函數的使用,也是ScalaJava最大的一點不一樣!!!由於Java裏面是沒有函數式編程的,也確定沒有高階函數,也確定沒法直接將函數傳入一個方法,或者讓一個方法返回一個函數

// Scala高階函數的理解、掌握和使用,能夠大大加強你的技術,並且也是Scala最有誘惑力、最有優點的一個功能!!!

// 此外,在Spark源碼中,有大量的函數式編程,以及基於集合的高階函數的使用!!!因此必須掌握,才能看懂spark源碼

 

// map案例實戰:爲List中每一個元素都添加一個前綴

List("Leo", "Jen", "Peter", "Jack").map("name is " + _)

 

// faltMap案例實戰:將List中的多行句子拆分紅單詞

List("Hello World", "You Me").flatMap(_.split(" "))

 

// foreach案例實戰:打印List中的每一個單詞

List("I", "have", "a", "beautiful", "house").foreach(println(_))

 

// zip案例實戰:對學生姓名和學生成績進行關聯

List("Leo", "Jen", "Peter", "Jack").zip(List(100, 90, 75, 83))

 

 

 

 

 

 

函數式編程綜合案例:統計多個文本內的單詞總數

// 使用scalaio包將文本文件內的數據讀取出來

val lines01 = scala.io.Source.fromFile("C://Users//Administrator//Desktop//test01.txt").mkString

val lines02 = scala.io.Source.fromFile("C://Users//Administrator//Desktop//test02.txt").mkString

// 使用List的伴生對象,將多個文件內的內容建立爲一個List

val lines = List(lines01, lines02)

 

// 下面這一行纔是咱們的案例的核心和重點,由於有多個高階函數的鏈式調用,以及大量下劃線的使用,若是沒有透徹掌握以前的課講解的Scala函數式編程,那麼下面這一行代碼,徹底可能會看不懂!!!

// 可是下面這行代碼其實就是Scala編程的精髓所在,就是函數式編程,也是Scala相較於Java等編程語言最大的功能優點所在

// 並且,spark的源碼中大量使用了這種複雜的鏈式調用的函數式編程

// 並且,spark自己提供的開發人員使用的編程api的風格,徹底沿用了Scala的函數式編程,好比Spark自身的api中就提供了mapflatMapreduceforeach,以及更高級的reduceByKeygroupByKey等高階函數

// 若是要使用Scala進行spark工程的開發,那麼就必須掌握這種複雜的高階函數的鏈式調用!!!

 

lines.flatMap(_.split(" ")).map((_, 1)).map(_._2).reduceLeft(_ + _)

相關文章
相關標籤/搜索