Spark spark-shell操作

RDD(Resilient Distributed Datasets),彈性分佈式數據集,是分佈式內存的一個抽象概念,RDD提供了一種高度受限的共享內存模型,即RDD是隻讀的記錄分區的集合,只能通過在其他RDD執行確定的轉換操作(如map、join和group by)而創建,然而這些限制使得實現容錯的開銷很低.  創建RDD的兩種方法: 1.並行化集合 val data= sc.paralleli
相關文章
相關標籤/搜索