不可不知的spark shuffle

時間 2019-12-07

標籤不可不知 spark shuffle 欄目 Spark 简体版

原文原文鏈接

shuffle概覽一個spark的RDD有一組固定的分區組成，每一個分區有一系列的記錄組成。對於由窄依賴變換（例如map和filter）返回的RDD，會延續父RDD的分區信息，以pipeline的形式計算。每一個對象僅依賴於父RDD中的單個對象。諸如coalesce之類的操做可能致使任務處理多個輸入分區，但轉換仍然被認爲是窄依賴的，由於一個父RDD的分區只會被一個子RDD分區繼承。網絡 Spa

>>阅读原文<<