國慶假期最後幾天,集羣任務忽然大批量報錯,記錄一下這次問題解決過程。html
1. 問題描述:apache
凌晨離線任務執行時,隨機出現幾十個Oozie任務執行失敗,Rerun後通常能夠正常執行。session
2. 問題定位:日誌
因爲節前新增了幾個計算節點,首先懷疑是新節點致使的。查看CM/YARN等,未發現報錯。htm
查看任務執行日誌,發現錯誤信息,截圖以下:blog
再去查看報錯任務的全部MR,都是成功的,如今基本肯定報錯是由Beeline自身的緣由。文檔
下載Hive源碼,經查找,發現報錯都是在操做FileHistory類的時候:源碼
瀏覽網上的相似報錯信息,發現疑似問題,當~/.beeline/history文件過大時,2.1版本如下會OOM。因而登錄集羣確認,可是隨機挑選的幾個節點,history文件都爲空,頓時感受空歡喜一場。it
回過頭來繼續思考,仍是基本肯定由於增長節點引發的,因而登陸新增的幾個節點,發如今全部的新增節點上,~/.beeline/history文件都不存在!考慮以前定位發現的問題,決定在這幾個節點手動生成下history文件,果真,次日解決了。io
參考文檔:
http://www.ericlin.me/tag/beeline/
https://community.hortonworks.com/articles/102247/beeline-hangs-only-from-few-sessions-and-exit-with.html
https://issues.apache.org/jira/browse/HIVE-15166
Beeline返回大量數據時OOM
http://tangjj.blog.51cto.com/1848040/1679895/