spark中的血統

爲什麼會有血統? Lineage定義 Lineage:用來描述不同RDD之間的依賴關係。 RDD在Lineage方面主要分爲兩種:窄依賴和寬依賴。 那什麼是窄依賴和寬依賴呢? 窄依賴:父RDD中的每個分區最多被子RDD的一個分區使用。 寬依賴:父RDD中的每個分區被子RDD中的多個分區使用。 血統解決了什麼問題? 在spark的容錯機制中,當一個節點宕機了,進行容錯恢復時, 對窄依賴來講:計算時只
相關文章
相關標籤/搜索