spark中RDD的寬依賴和窄依賴

寬依賴與窄依賴 窄依賴是指父RDD的每個分區只被子RDD的一個分區所使用,子RDD一般對應父RDD的一個或者多個分區。(與數據規模無關)不會產生shuffle。 下面的join也是窄依賴,雖然有兩個父RDD,但是兩個 RDD中每個分區都被一個子RDD的分區使用,即使父RDD的分區裏面的內容並沒有讓子RDD的一個分區使用。 寬依賴指父RDD的多個分區可能被子RDD的一個分區所使用,子RDD分區通常對
相關文章
相關標籤/搜索