菜鳥的Spark 源碼學習之路 -8 RDD

前文對shuffle的過程進行了學習,shuffle操作本身是基於RDD之間的依賴關係,在RDD之間產生寬依賴是則會有Shuffle。 RDD是Spark中最重要的數據抽象。本文開始,我們將學習SparkRdd的實現細節。 1. 概覽 /** * A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Repr
相關文章
相關標籤/搜索