spark和mr的區別

首先最核心的兩點:內存和磁盤的區別;job中途失敗重新計算的區別。 ---spark最核心的概念是RDD(彈性分佈式數據集),它的所有rdd在並行運算過程程中,可以做到數據共享,也就是可以重複使用mr在計算過程中 ---mapr:一次數據過程包含從共享文件系統讀取數據、進行計算、完成計算、寫入計算結果到共享存儲中,在計算過程中,不同計算節點之間保持高度並行,這樣的數據流模型使得那些需要反覆使用一個
相關文章
相關標籤/搜索