spark 基礎(一)RDD

RDD resilient distributed dataset  彈性分佈式數據集 在spark 中對數據的所有操作均可歸類爲:創建RDD,轉化已有RDD,調用RDD操作求值。 每個RDD可以被分爲多個分區,這些分區運行在集羣的不同節點上,RDD可以包含python,scala,java等任意類型的對象。 創建RDD方法; 1 讀取外部數據集 SparkContext.textFile 2 在
相關文章
相關標籤/搜索