Hadoop 企業優化

1 MapReduce 跑的慢的緣由 Mapreduce 程序效率的瓶頸在於兩點: 1 計算機性能 CPU、內存、磁盤健康、網絡java 2 I/O 操做優化 1)數據傾斜 2) map 和 reduce 數設置不合理 3) map 運行時間太長,致使 reduce 等待太久 4)小文件過多 5) 大量的不可分塊的超大文件 6) spill 次數過多 7) merge 次數過多等。node 2 M
相關文章
相關標籤/搜索