spark與mapreduce

時間 2021-01-09

原文原文鏈接

1,spark爲什麼稱爲內存計算模型? 第一,不是說spark的數據都加載到內存中進行計算就是內存計算模型了,基於馮諾依曼架構,任何計算不都是加載到內存中計算麼? 第二個,數據集太大的話,例如到PB級,目前任何內存也處理不了第三,實則是spark會把一部分數據集的子集加載進內存,然後這其中的一部分中間計算的結果存放在內存,方便下一步的計算,而不是大量中間結果寫到HDFS中 2,spark的計算過

>>阅读原文<<