深度學習批任務處理調度器與kubernetes默認調度器融合

kubernetes集羣三步安裝 什麼是批處理任務 深度學習中經常會出現多機多卡的任務,也就是同事會起多個pod,但是這多個pod屬於同一個任務。 這樣就會有一個問題 一個任務要起100個pod,每個pod需要一張卡,總共需要100張GPU卡,而集羣中只有99張空閒的GPU卡,這樣默認的k8s調度器會如何處理? 因爲默認調度器是一個一個pod調度的,只會檢查單個pod資源夠不夠,這樣前99個都能成
相關文章
相關標籤/搜索