spark中flatMap函數用法--spark學習（基礎）

時間 2019-11-09

原文原文鏈接

在spark中map函數和flatMap函數是兩個比較經常使用的函數。其中
map：對集合中每一個元素進行操做。
flatMap：對集合中每一個元素進行操做而後再扁平化。
理解扁平化能夠舉個簡單例子php

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.flatmap(x=>(x._1+x._2)).foreach(println)

輸出結果爲markdown

A
1 B 2 C 3

若是用map函數

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.map(x=>(x._1+x._2)).foreach(println)

輸出結果post

A1
B2
C3

因此flatMap扁平話意思大概就是先用了一次map以後對所有數據再一次map。學習

這個場景是我曾經在寫代碼過程當中遇到的難題，在字符串中如何統計相鄰字符對出現的次數。意思就是若是有A;B;C;D;B;C字符串，則（A,B）,(C,D),(D,B)相鄰字符對出現一次，(B,C)出現兩次。
若有數據spa

A;B;C;D;B;D;C B;D;A;E;D;C A;B

統計相鄰字符對出現次數代碼以下.net

data.map(_.split(";")).flatMap(x=>{ for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1) }).reduceByKey(_+_).foreach(println)

輸出結果爲code

(A,E,1) (E,D,1) (D,A,1) (C,D,1) (B,C,1) (B,D,2) (D,C,2) (D,B,1) (A,B,2)

此例子就是充分運用了flatMap的扁平化功能。blog

相關標籤/搜索