菜鳥的Spark 源碼學習之路 -8 Shuffle

上一次研究的BlockManager相關的源碼實現。本次進入Shuffle管理的學習。 Shuffle是spark的一個重要的過程抽象,它涉及到以下幾個問題: 1. 數據重新分區 2.數據傳輸 3.數據壓縮 4.磁盤IO 1. 結構概覽 我們先看一下Shuffle包的類和對象組成,包括java和scala兩部分: Spark2.x後,原有的MapShuffleManager已經被棄用,現在只有So
相關文章
相關標籤/搜索