RDD的缺點?算法
RDD是Spark最基本也是最根本的數據抽象,它具有像MapReduce等數據流模型的容錯性,而且容許開發人員在大型集羣上執行基於內存的計算。
爲了有效地實現容錯。編程
RDD提供了一種高度受限的共享內存,即RDD是隻讀的,而且,只能經過其餘RDD上的批量操做來建立。網絡
RDD只支持粗粒度轉換,限制了編程模型。機器學習
但RDD仍然能夠很好地適用於不少應用,特別是支持數據並行的批量分析應用,包括數據挖掘、機器學習、圖算法等,由於這些程序一般都會在不少記錄上執行相同的操做。異步
RDD不太適合那些異步更新共享狀態的應用,例如並行Web網絡爬蟲。學習
所以,Spark的目標是爲大多數分析型應用提供有效的編程模型,而其餘類型的應用則交給專們的系統。code