不可不知的spark shuffle

shuffle概覽 一個spark的RDD有一組固定的分區組成,每一個分區有一系列的記錄組成。對於由窄依賴變換(例如map和filter)返回的RDD,會延續父RDD的分區信息,以pipeline的形式計算。每一個對象僅依賴於父RDD中的單個對象。諸如coalesce之類的操做可能致使任務處理多個輸入分區,但轉換仍然被認爲是窄依賴的,由於一個父RDD的分區只會被一個子RDD分區繼承。 網絡 Spa
相關文章
相關標籤/搜索