3分鐘讓你學會大數據：Spark生態原理剖析

時間 2021-07-12

原文原文鏈接

Spark是基於內存計算的通用大規模數據處理框架。 Spark快的原因： Spark基於內存，儘可能的減少了中間結果寫入磁盤和不必要的sort、shuffle Spark對於反覆用到的數據進行了緩存 Spark對於DAG進行了高度的優化，具體在於Spark劃分了不同的stage和使用了延遲計算技術彈性數據分佈集RDD： Spark將數據保存分佈式內存中，對分佈式內存的抽象理解，提供了一個高度

>>阅读原文<<