Spark和MapReduce的對比

時間 2021-01-09

原文原文鏈接

spark和MapReduce不同點在於，spark每次處理數據都先將數據放到內存裏面。如果數據量太大，內存盛不下，那麼性能就大打折扣。MapReduce每次執行完了一個任務都會存儲到磁盤，比如歸併排序。先歸併兩個節點的數據集，存到磁盤上。當需要進一步歸併，還要從磁盤讀。而spark則是直接在內存裏進行歸併，需要進一步歸併，如果內存繼續申請內存。所以spark影響與它一起運行在同一節點的應用性能。

>>阅读原文<<