Spark筆記02

今天講一下spark的基本概念: 想要了解spark,首先要了解sparkRDD(彈性分佈式數據集)。spark應用程序通過使用spark的轉換API可以將RDD封裝爲一系列具有血緣關係的RDD,也就是DAG。只有通過spark的動作API纔會將RDD及其DAG提交到DAGScheduler。RDD負責從數據源迭代讀取數據。這樣講可能有點不太明白,就好比RDD是一個裝載數據得容器,我們從數據源讀取
相關文章
相關標籤/搜索