Spark基本工做原理與RDD及wordcount程序實例和原理深度剖析

RDD以及其特色 一、RDD是Spark提供的核心抽象,全稱爲Resillient Distributed Dataset,即彈性分佈式數據集。 二、RDD在抽象上來講是一種元素集合,包含了數據。它是被分區的,分爲多個分區,每一個分區分佈在集羣中的不一樣節點上,從而讓RDD中的數據能夠被並行操做。(分佈式數據集) 三、RDD一般經過Hadoop上的文件,即HDFS文件或者Hive表,來進行建立;有
相關文章
相關標籤/搜索