SparkRDD簡介/經常使用算子/依賴/緩存

時間 2019-12-11

原文原文鏈接

SparkRDD簡介/經常使用算子/依賴/緩存

RDD簡介算法

RDD（Resilient Distributed Dataset）叫作分佈式數據集，是Spark中最基本的數據抽象，它表明一個不可變、可分區、裏面的元素可並行計算的集合。RDD是一個類數組

RDD的屬性緩存

1.一個列表，存儲存取每一個Partition的優先位置（preferred location）。對於一個HDFS文件來講，這個列表保存的就是每一個Partition所在的塊的位置。按照「移動數據不如移動計算」的理念，Spark在進行任務調度的時候，會盡量地將計算任務分配到其所要處理數據塊的存儲位置。
2.保存了計算每一個分區的函數，這個計算方法會應用到每個數據塊上,Spark中RDD的計算是以分片爲單位的，每一個RDD都會實現compute函數以達到這個目的。compute函數會對迭代器進行復合，不須要保存每次計算的結果。
3.RDD之間的依賴關係。RDD的每次轉換都會生成一個新的RDD，因此RDD之間就會造成相似於流水線同樣的先後依賴關係。在部分分區數據丟失時，Spark能夠經過這個依賴關係從新計算丟失的分區數據，而不是對RDD的全部分區進行從新計算。
4.RDD的分片函數（Partitioner），一個是基於哈希的HashPartitioner，另一個是基於範圍的RangePartitioner。只有對於於key-value的RDD，纔會有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函數不但決定了RDD自己的分片數量，也決定了parent RDD Shuffle輸出時的分片數量。
5.一組分片（Partition），即數據集的基本組成單位。對於RDD來講，每一個分片都會被一個計算任務處理，並決定並行計算的粒度。用戶能夠在建立RDD時指定RDD的分片個數，若是沒有指定，那麼就會採用默認值。默認值就是程序所分配到的CPU Core的數目。框架

如何建立RDD分佈式

1.經過序列化集合的方式建立RDD（parallelize，makeRDD）
2.經過讀取外部的數據源(testFile)
3.經過其餘的rdd作transformation操做轉換成行的RDD函數

RDD的兩種算子：oop

1.Transformationspa

map(func) :返回一個新的分佈式數據集，由每一個原元素通過func函數轉換後組成
filter(func) : 返回一個新的數據集，由通過func函數後返回值爲true的原元素組成
flatMap(func) : 相似於map，可是每個輸入元素，會被映射爲0到多個輸出元素（所以，func函數的返回值是一個Seq，而不是單一元素）
flatMap(func) : 相似於map，可是每個輸入元素，會被映射爲0到多個輸出元素（所以，func函數的返回值是一個Seq，而不是單一元素）
sample(withReplacement, frac, seed) :
根據fraction指定的比例對數據進行採樣，能夠選擇是否使用隨機數進行替換，seed用於指定隨機數生成器種子
union(otherDataset) : 返回一個新的數據集，由原數據集和參數聯合而成
reduceByKey(func, [numTasks]) : 在一個（K，V)對的數據集上使用，返回一個（K，V）對的數據集，key相同的值，都被使用指定的reduce函數聚合到一塊兒。和groupbykey相似，任務的個數是能夠經過第二個可選參數來配置的。
join(otherDataset, [numTasks]) :
在類型爲（K,V)和（K,W)類型的數據集上調用，返回一個（K,(V,W))對，每一個key中的全部元素都在一塊兒的數據集
groupWith(otherDataset, [numTasks]) : 在類型爲（K,V)和(K,W)類型的數據集上調用，返回一個數據集，組成元素爲（K, Seq[V], Seq[W]) Tuples。這個操做在其它框架，稱爲CoGroup
cartesian(otherDataset) : 笛卡爾積。但在數據集T和U上調用時，返回一個(T，U）對的數據集，全部元素交互進行笛卡爾積。
intersection(otherDataset):對源RDD和參數RDD求交集後返回一個新的RDD
distinct([numTasks])) 對源RDD進行去重後返回一個新的RDD
groupByKey([numTasks]) 在一個(K,V)的RDD上調用，返回一個(K, Iterator[V])的RDD
reduceByKey(func, [numTasks]) 在一個(K,V)的RDD上調用，返回一個(K,V)的RDD，使用指定的reduce函數，將相同key的值聚合到一塊兒，與groupByKey相似，reduce任務的個數能夠經過第二個可選的參數來設置
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
sortByKey([ascending], [numTasks]) 在一個(K,V)的RDD上調用，K必須實現Ordered接口，返回一個按照key進行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks]) 與sortByKey相似，可是更靈活
join(otherDataset, [numTasks]) 在類型爲(K,V)和(K,W)的RDD上調用，返回一個相同key對應的全部元素對在一塊兒的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks]) 在類型爲(K,V)和(K,W)的RDD上調用，返回一個(K,(Iterable ,Iterable ))類型的RDD

2.Actionorm

reduce(func) 經過func函數彙集RDD中的全部元素，這個功能必須是課交換且可並聯的
collect() 在驅動程序中，以數組的形式返回數據集的全部元素
count() 返回RDD的元素個數
first() 返回RDD的第一個元素（相似於take(1)）
take(n) 返回一個由數據集的前n個元素組成的數組
takeSample(withReplacement,num, [seed]) 返回一個數組，該數組由從數據集中隨機採樣的num個元素組成，能夠選擇是否用隨機數替換不足的部分，seed用於指定隨機數生成器種子
takeOrdered(n, [ordering])
saveAsTextFile(path) 將數據集的元素以textfile的形式保存到HDFS文件系統或者其餘支持的文件系統，對於每一個元素，Spark將會調用toString方法，將它裝換爲文件中的文本
saveAsSequenceFile(path) 將數據集中的元素以Hadoop sequencefile的格式保存到指定的目錄下，可使HDFS或者其餘Hadoop支持的文件系統。
saveAsObjectFile(path)
countByKey() 針對(K,V)類型的RDD，返回一個(K,Int)的map，表示每個key對應的元素個數。
foreach(func) 在數據集的每個元素上，運行函數func進行更新。

RDD的依賴關係排序

1.窄依賴
窄依賴指的是每個父RDD的Partition最多被子RDD的一個Partition使用
總結：窄依賴咱們形象的比喻爲獨生子女

2.寬依賴
寬依賴指的是多個子RDD的Partition會依賴同一個父RDD的Partition
總結：寬依賴咱們形象的比喻爲超生

3.Lineage(血統)
RDD只支持粗粒度轉換，即在大量記錄上執行的單個操做。將建立RDD的一系列Lineage（即血統）記錄下來，以便恢復丟失的分區。RDD的Lineage會記錄RDD的元數據信息和轉換行爲，當該RDD的部分分區數據丟失時，它能夠根據這些信息來從新運算和恢復丟失的數據分區。

DAG的生成
DAG(Directed Acyclic Graph)叫作有向無環圖，原始的RDD經過一系列的轉換就就造成了DAG，根據RDD之間的依賴關係的不一樣將DAG劃分紅不一樣的Stage，對於窄依賴，partition的轉換處理在Stage中完成計算。對於寬依賴，因爲有Shuffle的存在，只能在parent RDD處理完成後，才能開始接下來的計算，所以寬依賴是劃分Stage的依據。

RDD的緩存
Spark速度很是快的緣由之一，就是在不一樣操做中能夠在內存中持久化或緩存個數據集。當持久化某個RDD後，每個節點都將把計算的分片結果保存在內存中，並在對此RDD或衍生出的RDD進行的其餘動做中重用。這使得後續的動做變得更加迅速。RDD相關的持久化和緩存，是Spark最重要的特徵之一。能夠說，緩存是Spark構建迭代式算法和快速交互式查詢的關鍵。

找依賴關係劃分stage的目的之一就是劃分緩存，如何經過stage的劃分設置緩存？
（1）在窄依賴想設置緩存時用cache
（2）在寬依賴想設置緩存時用checkpoint
如何設置cache和checkpoint？
cache：someRDD.cache()就添加成功緩存，放入到內存中
someRDD.persist（StorageLevel.MEMORY_AND_DISK）：根據本身的須要設置緩存的位置（內存和硬盤）

checkpoint：能夠把RDD計算後的數據存儲在本地磁盤上，也能夠是hdfs

sc.setCheckpointDIr("hdfs://hadoop1:9000/checkpoint")設置checkpoint的路徑在寬依賴前設置
someRDD.checkpoint()設置checkpoint

cache 和checkpoint的區別

cache只是緩存數據，不改變RDD的依賴關係，checkpoint生成了一個新的RDD，後面的RDD將依賴新的RDD依賴關係已經改變。數據恢復的順序：checkpoint ---》cache--》重算