【原創】大叔問題定位分享（19）spark task在executors上分佈不均

時間 2019-11-21

標籤原創問題定位分享 spark task executors 分佈欄目系統網絡简体版

原文原文鏈接

最近提交一個spark應用以後發現執行很是慢，點開spark web ui以後發現卡在一個job的一個stage上，這個stage有100000個task，可是絕大部分task都分配到兩個executor上，其餘executor很是空閒，what happened？html

查看spark task分配邏輯發現，有一個data locality即數據本地性的特性，詳見 http://www.javashuo.com/article/p-alrnbbhk-g.html
即會按照locality級別的優先級來分配任務，數據本地性的優先級是：PROCESS_LOCAL, NODE_LOCAL, NO_PREF, RACK_LOCAL, ANY，而且在優先級之間還有一個delay，node