Spark基礎概念(1)

Google的MapReduce,展示了一個簡單通用和自動容錯的批處理計算模型。但是對於其他類型的計算,比如交互式計算和流式計算,他不適合。 統一大數據處理框架Spark,提出了RDD概念(一種新的抽象的彈性數據集),某種程度是MapReduce的一種拓展。 MapReduce缺乏一種特性:即在並行計算的各個階段進行有效的數據共享,這就是RDD的本質。 容錯方式: MapReduce是將計算構建成
相關文章
相關標籤/搜索