Spark 2.4.0 編程指南--快速入門

時間 2019-12-07

標籤 spark 2.4.0 編程指南快速入門欄目 Spark 简体版

原文原文鏈接

Spark 2.4.0 編程指南--快速入門

視頻

Spark 2.4.0 編程指南--快速入門(bilibili視頻) : https://www.bilibili.com/video/av38193405/?p=2

文檔

(官網文檔): http://spark.apache.org/docs/2.4.0/quick-start.html
(英譯中)(官網文檔)Spark 2.4.0 編程指南(快速入門)(pdf): https://github.com/opensourceteams/spark-scala-maven-2.4.0/blob/master/md/module/pdf/%E7%BC%96%E7%A8%8B%E6%8C%87%E5%8D%97%E5%BF%AB%E9%80%9F%E5%85%A5%E9%97%A8%20-%20Spark%202.4.0%E6%96%87%E6%A1%A3.pdf

前置條件

已安裝好java(選用的是java 1.8.0_191)
已安裝好scala(選用的是scala 2.11.121)
已安裝好hadoop(選用的是Hadoop 3.1.1)
已安裝好spark(選用的是spark 2.4.0)

技能標籤

Spark 2.4.0 Spark session available as 'spark'
在Spark 2.0以後，RDD被數據集(Dataset)取代
Spark session 讀取HDFS文件作爲數據集
數據集函數，count(),first(),filter(),reduce()
統計全部行單詞總個數
計算行中最多單詞的個數
計算最多單詞個數的行
按單詞分組統計個數(WordCount)
官網: http://spark.apache.org/docs/2.4.0/quick-start.html

示例

Spark session 讀取HDFS文件作爲數據集

val dataSet = spark.read.textFile("/home/liuwen/data/a.txt")

數據集調用count()函數

dataSet.count()

數據集調用first()函數

//其實調用的是head()函數
 dataSet.first()

數據集調用show()函數

dataSet.show()  //默認取前20行數據，並進行20個字符的截斷
 dataSet.show(10,false)   //取前20行數據，而且不進行截斷

數據集調用filter()函數

dataSet.filter(line => line.contains("spark"))

統計全部行單詞總個數

import spark.implicits._
val lineWordLength = dataSet.map( line => line.split(" ").size)
val result = lineWordLength.reduce((a,b) => a + b)

計算行中最多有多少個單詞

import spark.implicits._
val lineWordLength = dataSet.map( line => line.split(" ").size)
val result = lineWordLength.reduce((a,b) => Math.max(a,b))

計算最多單詞個數的行

import spark.implicits._
val result = dataSet.reduce((a,b) => {
  if(a.split(" ").size > b.split(" ").size) a  else b
})

按單詞分組統計單詞個數(WorldCount)

import spark.implicits._

    val distFile = spark.read.textFile("hdfs://standalone.com:9000/home/liuwen/data/word.txt")

    //方式一
    //val dataset = distFile.flatMap( line => line.split(" ")).groupByKey(x => x ).count()


    //方式二
    val dataset = distFile.flatMap( line => line.split(" ")).map(x => (x,1)).groupByKey(x => x).reduceGroups((a,b) => (a._1,a._2+b._2))

    //方式三
    //val dataset = distFile.flatMap( line => line.split(" ")).groupByKey(identity ).count()

endjava