Spark Lineage(血統)

時間 2021-01-06

原文原文鏈接

利用內存加快數據加載，在衆多的其它的In-Memory類數據庫或Cache類系統中也有實現，Spark的主要區別在於它處理分佈式運算環境下的數據容錯性（節點實效/數據丟失）問題時採用的方案。爲了保證RDD中數據的魯棒性，RDD數據集通過所謂的血統關係(Lineage)記住了它是如何從其它RDD中演變過來的。相比其它系統的細顆粒度的內存數據更新級別的備份或者LOG機制，RDD的Lineage記錄的是

>>阅读原文<<