hadoop MR任務優化總結

最近在作數據灌庫工做,數據量較大不能基於單機進行灌庫,須要編寫MR任務。因爲作MR開發經驗不足,幾經優化才知足灌庫性能要求,這裏總結一下。web 如非必要,請規避reduce任務 reduce任務涉及跨計算節點拉取數據,shuffle及數據排序,而這些過程都是很耗資源的。 對於灌庫任務來講,咱們沒有必要對數據作排序,徹底不要reduce任務,不要多此一舉地去將reduce設置爲cat,看上去cat
相關文章
相關標籤/搜索