Spark--RDD詳解

RDD容錯機制 分佈式系統通常在一個機器集羣上運行,同時運行的幾百臺機器中某些出問題的概率大大增加,所以容錯設計是分佈式系統的一個重要能力。 Spark以前的集羣容錯處理模型,像MapReduce,將計算轉換爲一個有向無環圖(DAG)的任務集合,這樣可以通過重複執行DAG裏的一部分任務來完成容錯恢復。但是由於主要的數據存儲在分佈式文件系統中,沒有提供其他存儲的概念,容錯過程需要在網絡上進行數據複製
相關文章
相關標籤/搜索