Spark之深刻理解RDD結構

RDD RDD(Resilient Distributed Datasets,彈性分佈式數據集),是Spark最爲核心的概念,天然也是理解Apache Spark 工做原理的最佳入口之一。html RDD的特色: 1. 是一個分區的只讀記錄的集合; 2. 一個具備容錯機制的特殊集; 3. 只能經過在穩定的存儲器或其餘RDD上的肯定性操做(轉換)來建立; 4. 能夠分佈在集羣的節點上,以函數式操做集
相關文章
相關標籤/搜索