scalca建立rdd

進行Spark核心編程時，首先要作的第一件事，就是建立一個初始的RDD。該RDD中，一般就表明和包含了Spark應用程序的輸入源數據。而後在建立了初始的RDD以後，才能夠經過Spark Core提供的transformation算子，對該RDD進行轉換，來獲取其餘的RDD。 Spark Core提供了三種建立RDD的方式，包括：使用程序中的集合建立RDD；使用本地文件建立RDD；使用HDFS文件建立RDD。編程

object CreateRDD { def main(args: Array[String]): Unit = { val conf=new SparkConf().setMaster("local[2]").setAppName("CreateRDD") val sc=new SparkContext(conf) val arrays=Array(1,2,3,4,5,6,7,8,9,10) val rddData=sc.parallelize(arrays,2) //使用集合建立RDD,序列化,默認根據集羣狀況設置rdd的partition，也能夠手動傳入
    val sum=rddData.reduce(_+_) println(sum) //val rdd = sc.textFile("data.txt") //使用本地文件建立RDD //val wordCount = rdd.map(line => line.length).reduce(_ + _) //map是transformation操做(transformation都是lazy執行),reduce是action,才執行操做 //val lines = sc.textFile("hdfs://spark1:9000/spark.txt", 1) //使用hdfs文件建立RDD //val count = lines.map { line => line.length() }.reduce(_ + _)
 } }