Spark寬窄依賴詳解

時間 2019-12-06

標籤 spark 寬窄依賴詳解欄目 Spark 简体版

原文原文鏈接

1.寬窄依賴圖中左邊是寬依賴，父RDD的4號分區數據劃分到子RDD的多個分區（一分區對多分區），這就代表有shuffle過程，父分區數據通過shuffle過程的hash分區器（也可自定義分區器）劃分到子RDD。例如GroupByKey，reduceByKey，join，sortByKey等操做。安全圖右邊是窄依賴，父RDD的每一個分區的數據直接到子RDD的對應一個分區（一分區對一分區），例

>>阅读原文<<