Spark Lineage(血統)

利用內存加快數據加載,在衆多的其它的In-Memory類數據庫或Cache類系統中也有實現,Spark的主要區別在於它處理分佈式運算環境下的數據容錯性(節點實效/數據丟失)問題時採用的方案。爲了保證RDD中數據的魯棒性,RDD數據集通過所謂的血統關係(Lineage)記住了它是如何從其它RDD中演變過來的。相比其它系統的細顆粒度的內存數據更新級別的備份或者LOG機制,RDD的Lineage記錄的是
相關文章
相關標籤/搜索