Spark和MapReduce的區別

時間 2019-11-11

原文原文鏈接

性能：性能

Spark在內存中處理數據，而MapReduce是經過map和reduce操做在磁盤中處理數據。因此從這方面講Spark的性能是超過MapReduce的。可是當數據量比較大，沒法所有讀入內存時，MapReduce就比較有優點。當涉及須要重複讀取一樣的數據進行迭代式計算的時候，Spark比較有優點；可是當涉及到單次讀取，相似ETL操做任務時，適合用MapReduce進行處理。日誌

容錯：內存

當執行中途失敗時，MapReduce會從失敗處繼續執行，由於它是依賴於硬盤驅動器的。可是Spark就必須從頭開始執行，這樣MapReduce相對節省了時間。map

應用場景：數據

MapReduce主要是進行離線計算處理，計算一些已存在的數據，好比對已存在的訂單或者日誌進行分析。而Spark能夠應用在一些實時查詢和迭代分析的場景，好比像推薦系統。查詢