spark的靈魂:RDD和DataSet

spark創建在抽象的RDD上,把不一樣處理的數據的需求轉化爲RDD,而後對RDD進行一系列的算子運算,從而獲得結果。
RDD是一個容錯的,並行的數據結構,能夠將數據存儲到磁盤和內存中,並能控制數據分區,並提供了豐富的API來操做數據。數據結構

1:RDD的定義及五大特性剖析
RDD是分佈式內存的一個抽象概念,是一種高度受限的共享內存模型,即RDD時只讀的記錄分區的集合,能跨集羣全部節點並行計算,是一種基於工做集的抽象模型。
(1)分區列表
(2)每個分區都有一個計算函數
(3)依賴於其它RDD的列表
(4)key-value數據類型的RDD分區器
(5)每個分區都有一個優先位置列表
2:DataSet的定義及內部機制剖析分佈式

相關文章
相關標籤/搜索