Spark中RDD的建立與存儲

  RDD,全稱爲Resilient Distributed Datasets,是一個容錯的、並行的數據結構,可讓用戶顯式地將數據存儲到磁盤和內存中,並能控制數據的分區。java RDD是隻讀的、分區記錄的集合。RDD不須要物化。RDD含有如何從其餘RDD衍生(即計算)出本RDD的相關信息(即Lineage),據此能夠從物理存儲的數據計算出相應的RDD分區。node   每一個RDD有5個主要的屬
相關文章
相關標籤/搜索