spark源碼:怎麼確定算子是否會shuffle

網上已經有很多博客總結過會產生shuffle的算子,DAGScheduler根據 寬窄依賴/shuffle 來劃分stage。那麼怎麼判定算子會shuffle呢。 org.apache.spark.rdd OrderedRDDFunctions 通過這個類可以看出。 這些個算子會發生shuffle。 共性特徵爲 new shuffled rdd。
相關文章
相關標籤/搜索