spark基礎之RDD詳解

一 什麼是RDD,有什麼特點? RDD: Resilient Distributed Dataset,彈性分佈式數據集。 特點: # 它是一種數據的集合 # 它可以被分區,每一個分區分佈在不同的集羣中節點,從而使得RDD可以被並行處理,所以它是分佈式的 # 提供容錯性,它將計算轉換一個成一個有向無環圖(DAG)的任務集合,方便利用血緣關係進行數據恢復 # 中間計算結果緩存在內存 二 RDD與Map
相關文章
相關標籤/搜索