Spark RDD的建立

——建立RDDpython 2種方式 讀取外部數據集 或 在驅動器程序中對一個集合進行並行化app 最簡單方式把已有的集合傳給SparkContext的Parallelize()方法分佈式 lines=sc.parallelize(["pandas","apple"]) //python中的parallelize()方法 val lines=sc.parallelize(list("panda
相關文章
相關標籤/搜索