spark基礎之shuffle機制和原理分析

一 概述緩存 Shuffle就是對數據進行重組,因爲分佈式計算的特性和要求,在實現細節上更加繁瑣和複雜網絡 在MapReduce框架,Shuffle是鏈接Map和Reduce之間的橋樑,Map階段經過shuffle讀取數據並輸出到對應的Reduce;而Reduce階段負責從Map端拉取數據並進行計算。在整個shuffle過程當中,每每伴隨着大量的磁盤和網絡I/O。因此shuffle性能的高低也直接
相關文章
相關標籤/搜索