spark 例子倒排索引

spark 例子倒排索引


例子描述:java

【倒排索引(InvertedIndex)】編程

這個例子是在一本講spark書中看到的,可是樣例代碼寫的太java化,沒有函數式編程風格,因而問了些高手,教我寫了份函數式的倒排索引。
這段代碼,我在剛開始學的時候很難想到二次拆分數據,因此這個難點挺不錯的。函數式編程

原始數據
cx1|a,b,c,d,e,f
cx2|c,d,e,f
cx3|a,b,c,f
cx4|a,b,c,d,e,f
cx5|a,b,e,f
cx6|a,b,c,d
cx7|a,b,c,f
cx8|d,e,f
cx9|b,c,d,e,fsvn

結果數據
d|cx1,cx2,cx4,cx6,cx8,cx9
e|cx1,cx2,cx4,cx5,cx8,cx9
a|cx1,cx3,cx4,cx5,cx6,cx7
b|cx1,cx3,cx4,cx5,cx6,cx7,cx9
f|cx1,cx2,cx3,cx4,cx5,cx7,cx8,cx9
c|cx1,cx2,cx3,cx4,cx6,cx7,cx9函數


代碼片斷:spa

/* 倒排索引InvertedIndex */

val source = Source.fromFile("E:/cxsvn/txt/dp.txt").getLines.toArray
val cxRDD0 = sc.parallelize(source)                          /* spark單機讀取數據 */

cxRDD0
  .flatMap {
    lines =>
      val line = lines.split("\\|", -1)                      /* 拆分數據,以豎槓爲拆分條件 */
      line(1).split(",", -1).map {                           /* 再對拆分後的數據,進行第二次拆分 */
        v =>
          (v, line(0))                                       /* 拼接數據 */
      }
  }.groupByKey()                                             /* 分組 */
  .sortBy(_._1,true)                                         /* 排序 */
  .foreach(x => println(s"${x._1}|${x._2.mkString(",")}"))   /* 格式化輸出 */
相關文章
相關標籤/搜索