Spark—彈性分佈式數據集RDD

1)RDD的起源 Hadoop的數據存儲模式爲:從物理存儲上加載數據、操作數據、然後寫入物理存儲設備。 缺點1:運行迭代式算法很慢、無法進行交互式的數據挖掘 解決方法:數據存儲在內存中 缺點2:實現數據集的容錯性(數據恢復)代價高(龐大的數據集網絡傳輸) 解決方法:高度受限的共享內存(思想如下) 2)RDD定義 RDD是分佈式內存的一個抽象概念,是一種高度受限的共享內存模型,即RDD是隻讀的記錄分
相關文章
相關標籤/搜索