計算層優化之數據傾斜

在MapReduce執行的過程中,會把任務的原始數據分片到多個Task中執行。想象以下場景,當任務的多數Task都在短時間內完成,只有個別Task執行的時間特別長,從而拖慢了整個任務的執行速度,浪費了資源。表現形式就是任務進度卡在99%,這種現象就是數據傾斜。 MapReduce流程: ① 文件分片,一個分片交由一個map task執行 ② map task首先把數據從磁盤讀入內存環形緩衝區,在緩
相關文章
相關標籤/搜索