Spark中RDD概述

RDD 設計背景:因機器運算圖計算,有不斷的迭代計算,mapreduce的io開銷太大。爲解決此類問題,不用擔憂磁盤反覆讀寫,序列化反序列化這種開銷,構建一張DAG的有向無環圖,能夠實現數據的管道化處理(一個操做結束後把數據扔給下個操做做爲輸入,有效避免數據中間存儲)。web 概念 分佈式對象集合,本質上是一個只讀的分區記錄集合,每一個RDD可分紅多個分區,每一個分區就是一個數據集片斷,而且一個R
相關文章
相關標籤/搜索