Spark編程簡易版筆記

RDD(彈性分佈數據集)是一個容錯的、只讀的、可進行並行操作的數據結構,是一個分佈在集羣備個節點的存放元素的集合。RDD有3種不同的創建方法。一種是對程序中存在的基本數據結構中的集合進行並行化(如Set、List、Array),另一種是通過已有RDD轉化得到新的RDD,這兩種都是通過內存已有集合創建RDD。還有一種是直接讀取外部存儲的數據集。 從內存已有數據創建RDD 從內存已有數據創建RDD方法
相關文章
相關標籤/搜索