聊聊Spark中的寬依賴和窄依賴

時間 2021-01-07

原文原文鏈接

開門見山，本文就針對一個點，談談Spark中的寬依賴和窄依賴，這是Spark計算引擎劃分Stage的根源所在，遇到寬依賴，則劃分爲多個stage，針對每個Stage，提交一個TaskSet：上圖：一張網上的圖：基於此圖，分析下這裏爲什麼前面的流程都是窄依賴，而後面的卻是寬依賴：我們仔細看看，map和filter算子中，對於父RDD來說，一個分區內的數據，有且僅有一個子RDD的分區來消費該數據

>>阅读原文<<