大數據項目實戰必備技能之Spark

導讀: spark是基於內存計算的大數據並行計算框架,對於spark,Apache spark官方給出的定義:spark 是一個快速和通用的大數據引擎,可以通俗的理解成一個分佈式的大數據處理框架,它基於Rdd(彈性分佈式數據集),立足於內存計算,因爲是基於內存計算,所以提高了在大數據環境下數據處理的實時性,同時保證了高容錯和高可伸縮性,允許用戶將spark部署在大量廉價的硬件之上,形成集羣,由於s
相關文章
相關標籤/搜索