spark 對 RDDs的基礎操作 整理

寫在前面:學習spark有近一個月,暫時補充RDDs算子方面的知識,每週日更新!加油!   1.RDDs:spark的主要抽象--彈性分佈式數據集 RDDs的分佈式可以體現在:它可被分發到集羣各個節點上進行並行操作,最後將結果合併返回。 彈性體現在:spark在對RDDs操作時會自動的進行內存和磁盤數據存儲的權衡和切換。          spark基於Lineage(血統關係圖,下面會講)的高效
相關文章
相關標籤/搜索