3分鐘讓你學會大數據:Spark生態原理剖析

  Spark是基於內存計算的通用大規模數據處理框架。 Spark快的原因: Spark基於內存,儘可能的減少了中間結果寫入磁盤和不必要的sort、shuffle Spark對於反覆用到的數據進行了緩存 Spark對於DAG進行了高度的優化,具體在於Spark劃分了不同的stage和使用了延遲計算技術 彈性數據分佈集RDD: Spark將數據保存分佈式內存中,對分佈式內存的抽象理解,提供了一個高度
相關文章
相關標籤/搜索