Spark RDD學習筆記

一、學習Spark RDD RDD是Spark中的核心數據模型,一個RDD代表着一個被分區(partition)的只讀數據集。 RDD的生成只有兩種途徑: 一種是來自於內存集合或外部存儲系統; 另一種是通過轉換操作來自於其他RDD; 一般需要了解RDD的以下五個接口: partition 分區,一個RDD會有一個或者多個分區 dependencies() RDD的依賴關係 preferredLoc
相關文章
相關標籤/搜索