聊聊Spark中的寬依賴和窄依賴

開門見山,本文就針對一個點,談談Spark中的寬依賴和窄依賴,這是Spark計算引擎劃分Stage的根源所在,遇到寬依賴,則劃分爲多個stage,針對每個Stage,提交一個TaskSet: 上圖:一張網上的圖: 基於此圖,分析下這裏爲什麼前面的流程都是窄依賴,而後面的卻是寬依賴: 我們仔細看看,map和filter算子中,對於父RDD來說,一個分區內的數據,有且僅有一個子RDD的分區來消費該數據
相關文章
相關標籤/搜索