餘老師帶你學習大數據-Spark快速大數據處理第三章第七節MR內部機制調優

時間 2020-12-20

標籤 spark 欄目 Spark 简体版

原文原文鏈接

MapReduce基本原理輸入數據是怎麼來的 Hadoop將我們的輸入數據劃分爲等長的數據塊，被稱爲輸入的分片，Hadoop爲每個分片構建一個map任務，並用該任務來運行用戶自定的map函數來處理分片中的每一條記錄，map結果就是每一條記錄輸出的結果。負載均衡每個分片所需的時間少於處理輸入數據所花的時間。因此，如果並行的處理每個分片，且每個分片的數據比較，那麼整個處理過程將獲得更好的負載均衡

>>阅读原文<<