大數據項目實戰必備技能之Spark

時間 2021-01-04

原文原文鏈接

導讀： spark是基於內存計算的大數據並行計算框架，對於spark，Apache spark官方給出的定義：spark 是一個快速和通用的大數據引擎，可以通俗的理解成一個分佈式的大數據處理框架，它基於Rdd(彈性分佈式數據集)，立足於內存計算，因爲是基於內存計算，所以提高了在大數據環境下數據處理的實時性，同時保證了高容錯和高可伸縮性，允許用戶將spark部署在大量廉價的硬件之上，形成集羣，由於s

>>阅读原文<<