spark學習(二)RDD和DAG

1、sparkRDD概念 RDD(Resilient Distributed Dataset)叫作彈性分佈式數據集,是spark中最基本也是最重要的概念之一。它是spark中一種基本的數據抽象,有容錯機制並能夠被並行操做的元素集合,具備只讀、分區、容錯、高效、無需物化、能夠緩存、RDD依賴等特徵。RDD的知識較爲龐雜,這裏只能按我瞭解的作一些簡單介紹。緩存 2、一些基本的熟悉和概念 一、parti
相關文章
相關標籤/搜索