map reduce原理

shuffle是連接Map和Reduce之間的橋樑,Map的輸出要用到Reduce中必須經過shuffle這個環節,shuffle的性能高低直接影響了整個程序的性能和吞吐量。 shuffle的目的是以下三點: 完整地從map task端讀取數據到reduce 端。 在跨節點讀取數據時,儘可能地減少對帶寬的不必要消耗。 減少磁盤IO對task執行的影響。 在進入map這一步之前,首先是split(分
相關文章
相關標籤/搜索