6、寬窄依賴算子舉例

窄依賴是指父RDD的每一個分區只被子RDD的一個分區所使用,子RDD分區一般對應常數個父RDD分區(O(1),與數據規模無關)相應的,函數

寬依賴是指父RDD的每一個分區均可能被多個子RDD分區所使用,子RDD分區一般對應全部的父RDD分區(O(n),hash

與數據規模有關窄依賴的函數有:map, filter, union, join(父RDD是hash-partitioned ), mapPartitions, mapValuesit

寬依賴的函數有:groupByKey, join(父RDD不是hash-partitioned ), partitionByio

相關文章
相關標籤/搜索