TensorFlow on Kubernetes性能瓶頸定位

當前性能問題描述 增加worker數,一定範圍內能帶來較好的性能提升,但是繼續增加worker數時,訓練性能提升不明顯; 增加ps數,一定範圍內能帶來較好的性能提升,但是繼續增加ps數時,訓練性能提升不明顯; 可能原因: 與ps和worker的分佈情況強相關: 目前的調度策略,主要根據服務器的cpu和內存使用情況進行均衡調度,儘量使得集羣中每臺服務器的cpu和內存使用率相當。這種情況下,ps和wo
相關文章
相關標籤/搜索