RDD特性:編程
1.RDD是spark提供的核心抽象,全稱:Resillient Distributed Dataset,即彈性分佈式數據集。分佈式
2.RDD在抽象上來講是一種元素集合,包含了數據。它是被分區的,氛圍多個分區,每一個分區分佈在集羣中的不一樣節點上,從而讓RDD中的數據能夠並行操做(分佈式數據集)ide
3.RDD一般經過Hadoop上的文件來建立。有時也能夠經過應用程序中的集合賴牀見。oop
4.RDD最重要的特性就是提供了容錯性,能夠從節點失敗中恢復過來。即:若是某個節點的RDD partition由於節點故障致使數據丟失,那麼RDD會自動經過本身的數據來源從新計算該partitin。spa
5.RDD的每一個partition在spark節點上,默認都是放在內存中,可是若是內存中放不下這麼多數據,多出來的數據,就會把partition中的部分數據寫在磁盤上,進而保存。對於用戶來講,並不知道RDD內存數據存儲在哪裏。RDD的這種自動進行內存和詞牌之間的切換機制,就是RDD的彈性特色所在。orm
一個RDD在邏輯上抽象地表明瞭一個HDFS文件。可是其實是唄分區的,氛圍多個分區,多個分區散落在spark集羣中,不一樣的節點上。內存
Spark核心編程是什麼:it
首先,定義初始的RDD,就是說,要定義訂一個數據從哪裏來。spark
第二:定義對RDD的計算操做,這個在spark裏稱爲算子io
第三:就是循環往復的過程第一次計算完成後,數據就會到了新的一批節點上,變成了新的RDD,而後再次反覆,針對新的RDD定義算子操做。
第四:得到最終的數據,將數據保存起來。