spark rdd---checkpoint機制

先說cache. val rdd1 = sc.textFile("hdfs://master:9000/wordcount/input") val rdd2 = rdd1.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_) rdd2.collect 這裏以wordcount爲例,因爲rdd2中的數據經複雜操作後很重要,以後可能經常用到(如機器學習中的
相關文章
相關標籤/搜索