大數據:Spark Core (一) 什麼是RDD的Transformation和Actions以及Dependency?

1. Spark的RDD RDD(Resilient Distributed Datasets),彈性分佈式數據集,是對分佈式數據集的一種抽象。 RDD所具有5個主要特性: 一組分區列表 計算每個數據分片的函數 RDD上的一組依賴 對於Key Value 對的RDD,會有一個Partitioner, 這是數據的分區器,控制數據分區策略和數量 一組Preferred Location信息(如HDFS
相關文章
相關標籤/搜索