17、Spark核心編程之Spark基本工作原理與RDD

Spark基本工作原理 分佈式 主要基於內存(少數情況基於磁盤) 迭代式計算 Spark基本工作原理.png RDD以及其特點 RDD是Spark提供的核心抽象,全稱爲Resillient Distributed Dataset,即彈性分佈式數據集。 RDD在抽象上來說是一種元素集合,包含了數據。它是被分區的,分爲多個分區,每個分區分佈在集羣中的不同節點上,從而讓RDD中的數據可以被並行操作。(分
相關文章
相關標籤/搜索