Spark從入門到精通第十一課: Spark中的寬窄依賴 && Spark中的Shuffle && 內存管理策略

一、寬依賴和窄依賴 一、區別 窄依賴:對於一個父rdd,子rdd的一個分區只依賴其一個分區。 窄依賴容許在一個集羣節點上以流水線的方式(pipeline)計算全部父分區。 算子:map、union、map join和broadcast join。 寬依賴:對於一個父rdd,子rdd的一個分區依賴其多個分區. 寬依賴須要首先計算好全部父分區數據,而後在節點之間進行Shuf
相關文章
相關標籤/搜索