Spark編程模型(二):RDD簡介

    RDD是Spark應用開發過程中最爲基本也是最爲重要的一類數據結構,RDD被定義爲只讀、分區化的記錄集合,更爲通俗來講,RDD是對原始數據的進一步封裝,封裝導致兩個結果:第一個結果是數據訪問權限被限制,數據只能被讀,而無法被修改;第二個結果是數據操作功能被強化,使得數據能夠實現分佈式存儲、併發處理、自動容錯等諸多功能。Spark的整個計算過程都是圍繞數據集RDD來進行。     4.1 R
相關文章
相關標籤/搜索