Apache Spark RDD 論文de 簡單梳理

時間 2021-07-13

原文原文鏈接

1、RDD的提出是爲了解決在大規模集羣中以一種容錯的方式進行內存計算這個問題； 2、目前的框架對迭代式算法場景與交互數據挖掘場景的處理性能比較差（主要是對數據複用的不靈活，I/O開銷大）； 3、論文核心是提出一種分佈式內存抽象：RDDs；是一種可以容錯且並行的數據結構，可讓用戶將計算的中間結果保存在內存中、控制數據集的分區，實現數據存放的優化，還提供了豐富的API； 4、挑戰：如何定義一個高效容錯