spark淺談(1):RDD

一、彈性分佈式數據集    1.彈性分佈式數據集(RDD)是spark數據結構的基礎。它是一個不可變的分佈式對象的集合,RDD中的每個數據集都被劃分爲一個個邏輯分區,每個分區可以在集羣上的不同節點上進行計算。RDDs可以包含任何類型的Python,Java或者Scala對象,包括用戶自定義的類。   2.正常情況下,一個RDD是一個只讀的記錄分區集合。RDDs可以通過對穩定存儲數據或其他RDDs進
相關文章
相關標籤/搜索