Spark系列--SparkCore(一)RDD簡介

時間 2021-01-09

原文原文鏈接

前言 RDD是Spark的基石，是實現Spark數據處理的核心抽象。那麼RDD爲什麼會產生呢？ Hadoop的MapReduce是一種基於數據集的工作模式，面向數據，這種工作模式一般是從存儲上加載數據集，然後操作數據集，最後寫入物理存儲設備。數據更多面臨的是一次性處理。 MR的這種方式對數據領域兩種常見的操作不是很高效。第一種是迭代式的算法。比如機器學習中ALS、凸優化梯度下降等。這些都需要基於數