Spark學習總結---RDD

RDD概念:Resilient Distributed Dataset 彈性(優先放在內存,內存不夠,磁盤)的分佈式(RDD分佈在多個節點上)數據集,Spark核心的數據抽象,本質是一個只讀的分區記錄集合 特點 一組分片(Partition),即數據集的基本組成單位。對於RDD來說,每個分片都會被一個計算任務處理,並決定並行計算的粒度。用戶可以在創建RDD時指定RDD的分片個數,如果沒有指定,那麼
相關文章
相關標籤/搜索