spark-2-核心

• Spark基於彈性分佈式數據集(RDD)模型,具有良好的通用性、容錯性與並行處理數據的能力 • RDD(Resilient Distributed Dataset ):彈性分佈式數據集(相當於集合),它的本質是數據集的描述(只讀的、可分區的分佈式數據集),而不是數據集本身 • RDD的關鍵特徵: – RDD使用戶能夠顯式將計算結果保存在內存中,控制數據的劃分,並使用更豐富的操作集合來處理 –
相關文章
相關標籤/搜索