Spark中RDD概述

RDD 設計背景:因機器運算圖計算,有不斷的迭代計算,mapreduce的io開銷太大。爲解決此類問題,不用擔心磁盤反覆讀寫,序列化反序列化這種開銷,構建一張DAG的有向無環圖,可以實現數據的管道化處理(一個操作結束後把數據扔給下個操作作爲輸入,有效避免數據中間存儲)。 概念 分佈式對象集合,本質上是一個只讀的分區記錄集合,每個RDD可分成多個分區,每個分區就是一個數據集片段,並且一個RDD的不同
相關文章
相關標籤/搜索