RDD概念、特性、緩存策略與容錯

一、RDD概念與特性 1. RDD的概念   RDD(Resilient Distributed Dataset),是指彈性分佈式數據集。數據集:Spark中的編程是基於RDD的,將原始數據加載到內存變成RDD,RDD再經過若干次轉化,仍爲RDD。分佈式:讀數據一般都是從分佈式系統中去讀,如hdfs、kafka等,所以原始文件存在磁盤是分佈式的,spark加載完數據的RDD也是分佈式的,換句話說R
相關文章
相關標籤/搜索