Spark的Shuffle及緩存機制

Spark的 Shuffle Shuffle:將具有共同特徵的數據經過排序或合併過程,整理到同一個分區的過程 Spark提供了兩種Shuffle管理器,分別是:Hash Based Shuffle Manager和Sort Based Shuffle Manager Hash Based Shuffle Manager(Spark1.0之前) 會產生大量的臨時文件,文件數 = MapTask *
相關文章
相關標籤/搜索