[大牛翻譯系列]Hadoop(14)MapReduce 性能調優:減少數據傾斜的性能損失

6.4.4 減少數據傾斜的性能損失 數據傾斜是數據中的常見狀況。數據中不可避免地會出現離羣值(outlier),並致使數據傾斜。這些離羣值會顯著地拖慢MapReduce的執行。常見的數據傾斜有如下幾類:html 數據頻率傾斜——某一個區域的數據量要遠遠大於其餘區域。 數據大小傾斜——部分記錄的大小遠遠大於平均值。 在map端和reduce端都有可能發生數據傾斜。在map端的數據傾斜會讓多樣化的數據
相關文章
相關標籤/搜索