服務器上運行程序Out of memory 解決辦法

 ****** 服務器上跑過程序常常能遇到out of memory 這個問題,下面是我常常在實驗室碰到的解決方法。服務器

1.使用命令nvidia-smi,看到GPU顯存被佔滿:spa

2.嘗試使用 ps aux|grep PID命令查看佔用GPU內存的線程的使用狀況。以下線程

解決辦法:blog

1.根據以上操做便可確認同與你使用一臺服務器的其餘人是誰在佔用GPU。與對方溝通後若是程序已經跑完可是仍在佔用顯存可KILL掉該進程。進程

***因服務器資源有限,你們在使用過程當中及時互相溝通,保證機器利用效率。內存

2.多GPU的服務器在程序訓練EPOCH 較多的時候應該指定GPU_DEVICE,不要佔用所有資源。資源

3.使用jupyter的同窗在程序結束後應當及時在RUNNING界面將程序shutdown,不然該程序還會一直佔用資源。(以下)效率

相關文章
相關標籤/搜索