spark基礎-rdd特性

時間 2020-01-01

標籤 spark 基礎 rdd 特性欄目 Spark 简体版

原文原文鏈接

RDD特性：編程

1.RDD是spark提供的核心抽象，全稱：Resillient Distributed Dataset,即彈性分佈式數據集。分佈式

2.RDD在抽象上來講是一種元素集合，包含了數據。它是被分區的，氛圍多個分區，每一個分區分佈在集羣中的不一樣節點上，從而讓RDD中的數據能夠並行操做（分佈式數據集）ide

3.RDD一般經過Hadoop上的文件來建立。有時也能夠經過應用程序中的集合賴牀見。oop

4.RDD最重要的特性就是提供了容錯性，能夠從節點失敗中恢復過來。即：若是某個節點的RDD partition由於節點故障致使數據丟失，那麼RDD會自動經過本身的數據來源從新計算該partitin。spa

5.RDD的每一個partition在spark節點上，默認都是放在內存中，可是若是內存中放不下這麼多數據，多出來的數據，就會把partition中的部分數據寫在磁盤上，進而保存。對於用戶來講，並不知道RDD內存數據存儲在哪裏。RDD的這種自動進行內存和詞牌之間的切換機制，就是RDD的彈性特色所在。orm

一個RDD在邏輯上抽象地表明瞭一個HDFS文件。可是其實是唄分區的，氛圍多個分區，多個分區散落在spark集羣中，不一樣的節點上。內存

Spark核心編程是什麼：it

首先，定義初始的RDD，就是說，要定義訂一個數據從哪裏來。spark

第二：定義對RDD的計算操做，這個在spark裏稱爲算子io

第三：就是循環往復的過程第一次計算完成後，數據就會到了新的一批節點上，變成了新的RDD，而後再次反覆，針對新的RDD定義算子操做。

第四：得到最終的數據，將數據保存起來。