進行Spark核心編程時,首先要作的第一件事,就是建立一個初始的RDD。該RDD中,一般就表明和包含了Spark應用程序的輸入源數據。而後在建立了初始的RDD以後,才能夠經過Spark Core提供的transformation算子,對該RDD進行轉換,來獲取其餘的RDD。 Spark Core提供了三種建立RDD的方式,包括:使用程序中的集合建立RDD;使用本地文件建立RDD;使用HDFS文件建立RDD。編程
object CreateRDD { def main(args: Array[String]): Unit = { val conf=new SparkConf().setMaster("local[2]").setAppName("CreateRDD") val sc=new SparkContext(conf) val arrays=Array(1,2,3,4,5,6,7,8,9,10) val rddData=sc.parallelize(arrays,2) //使用集合建立RDD,序列化,默認根據集羣狀況設置rdd的partition,也能夠手動傳入 val sum=rddData.reduce(_+_) println(sum) //val rdd = sc.textFile("data.txt") //使用本地文件建立RDD //val wordCount = rdd.map(line => line.length).reduce(_ + _) //map是transformation操做(transformation都是lazy執行),reduce是action,才執行操做 //val lines = sc.textFile("hdfs://spark1:9000/spark.txt", 1) //使用hdfs文件建立RDD //val count = lines.map { line => line.length() }.reduce(_ + _) } }