Spark三大核心數據結構(一)——RDD的概念、血緣和持久化

Spark中三大核心數據結構:python RDD、緩存 廣播變量(分佈式只讀變量)、安全 累加器(分佈式只寫變量)、數據結構   1. RDD的概念和特色: RDD,全稱Resilient Distributed Dataset,彈性分佈式數據集,做爲Spark中最基礎的數據抽象,相似Java中對象的概念;分佈式 它表明一個不可變(只讀)、可分區、裏面的元素可並行計算的集合,List、Set、M
相關文章
相關標籤/搜索