Spark的寬依賴和窄依賴

Spark的計算的基本單位一個一個的算子,其計算流程也是由一個個基本的算子構成的,這些算子之間的依賴關係可以分爲寬依賴和窄依賴。 Spark是分佈式計算,其數據也是分佈式的,即所計算的數據可能分爲好多個塊。有些計算對數據的操作相對簡單,即某一塊兒的數據處理不需要涉及到其他塊的數據,就是對本塊數據處理完可以直接輸出到下一個數據塊,中間不需要更多的過程參與。比如map()算子,本身就是對每個數據進行循
相關文章
相關標籤/搜索