Spark系列--SparkCore(一)RDD簡介

前言 RDD是Spark的基石,是實現Spark數據處理的核心抽象。那麼RDD爲什麼會產生呢? Hadoop的MapReduce是一種基於數據集的工作模式,面向數據,這種工作模式一般是從存儲上加載數據集,然後操作數據集,最後寫入物理存儲設備。數據更多面臨的是一次性處理。 MR的這種方式對數據領域兩種常見的操作不是很高效。第一種是迭代式的算法。比如機器學習中ALS、凸優化梯度下降等。這些都需要基於數
相關文章
相關標籤/搜索