MapReduce性能優化祕籍

1. MapReduce跑的慢的緣由 MapReduce 程序效率的瓶頸在於兩點:java 計算機性能 CPU、內存、磁盤、網絡 I/O 操做 數據傾斜 map 和 reduce 數設置不合理 map 運行時間太長,致使 reduce 等待太久 小文件過多 大量的不可分塊的超大文件(例:經過 gzip 壓縮後的文件) spill(溢寫)次數過多 merge(map 端合併或 reduce 端合併)
相關文章
相關標籤/搜索