《Spark技術內幕》第三章RDD實現詳解

第三章 RDD實現詳解 3.1 概述 Spark的目標是爲基於工作集的應用(即多個並行操作重用中間結果的應用)提供抽象,同時保持MapReduce及相關模型的優勢特性。 即自動容錯、位置感知性和可伸縮性。 RDD比數據流模型更容易編程,同時基於工作集的計算也具有良好的描述能力。 在這些模型中最難實現的是容錯性。 一般來說,分佈式數據集的容錯性有兩種:數據檢查點和記錄數據的更新。 我們面對的是大規模
相關文章
相關標籤/搜索