大數據項目實戰必備技能之Spark

時間 2020-05-10

原文原文鏈接

導讀： spark是基於內存計算的大數據並行計算框架，對於spark，Apache spark官方給出的定義：spark 是一個快速和通用的大數據引擎，能夠通俗的理解成一個分佈式的大數據處理框架，它基於Rdd(彈性分佈式數據集)，立足於內存計算，由於是基於內存計算，因此提升了在大數據環境下數據處理的實時性，同時保證了高容錯和高可伸縮性，容許用戶將spark部署在大量廉價的硬件之上，造成集羣，因爲s

>>阅读原文<<