yarn ResourceManager Active頻繁易主問題排查

文章目錄 一、故障現象 二、問題分析 RM的HA機制分析 ZK問題分析 部分任務狀態更新失敗問題分析 三、解決和優化方案 1. 調大 jute.maxbuffer 參數 2. 修改yarn的源碼 3. 快速讓集羣恢復穩定的方法 四、總結 本週三公司的yarn集羣出現故障,導致兩臺ResourceManger頻繁易主,並且許多提交到集羣的任務狀態爲 NEW_SAVING,無法執行。這裏對此次的故障排
相關文章
相關標籤/搜索