Spark寬窄依賴詳解

1.寬窄依賴   圖中左邊是寬依賴,父RDD的4號分區數據劃分到子RDD的多個分區(一分區對多分區),這就代表有shuffle過程,父分區數據通過shuffle過程的hash分區器(也可自定義分區器)劃分到子RDD。例如GroupByKey,reduceByKey,join,sortByKey等操做。安全 圖右邊是窄依賴,父RDD的每一個分區的數據直接到子RDD的對應一個分區(一分區對一分區),例
相關文章
相關標籤/搜索