模型訓練速度下降

1. 問題描述: 重複訓練之前的模型,發現訓練速度明顯下降,之前尋一個epoch只需要4分鐘,但現在訓一個epoch半個多小時。 2. 解決辦法 排查了一整天,結果在另一個人的程序停止後,我的訓練速度自動回覆了正常。我沒有解決,服務器自己解決了。。。 下面這張圖:6號GPU是另一個同學在用,我的訓練很慢的時候,他的GPU利用率基本保持在95%~97%(watch -n 1 nvidia-smi看得
相關文章
相關標籤/搜索