nvidia-smi命令學習

問題 配置了4顆NVIDIA P40 24GGPU的服務器,業務反饋在系統中只能顯示3顆顯卡 查看bmc,並沒有發現異常。查看系統日誌如下,有一些重新初始化失敗的報錯 解決方法 廠商建議開啓GPU的持久模式。gpu默認持久模式關閉的時候,GPU如果負載低,會休眠。之後喚起的時候,有一定機率失敗,nvidia-smi -pm 1 這個命令可以使GPU一直保持準備工作的狀態 nvidia-smi -p
相關文章
相關標籤/搜索