GPU型號爲NVIDIA的1080Ti,最近出現的情況的是某一個GPU忽然就出問題了,若是在該GPU上有運行程序的話則程序中斷,nvidia-smi顯示出來的GPU則少了這一個。linux
一、一開始懷疑是溫度問題,溫度太高致使自動關閉。ubuntu
二、最好的方法是先看一下nvidia-bug-report,管理員輸入sudo nvidia-bug-report.shthis
參考:https://devtalk.nvidia.com/default/topic/522835/linux/if-you-have-a-problem-please-read-this-first/編碼
該命令會在本地生成一個nvidia-bug-report.log.gz,而後使用gunzip nvidia-bug-report.log.gz可解壓縮獲得nvidia-bug-report.log。blog
打開nvidia-bug-report.log,其中記錄了不少gpu的運行信息,尤爲是 /var/log/dmesg的信息,佔據了該log文件的大部分,記錄了從開機到生成report文件時GPU的全部運行狀況。ip
包括詳細時間,用戶等(因爲該文件是從ubuntu複製過來打開的,編碼問題致使亂碼,修改一下編碼方式就不會了,這裏看得懂就好)亂碼
而後就能夠定位到問題了bug
另外,nvidia-smi -a能夠獲取GPU的詳細信息,也能夠肯定消失的GPU的id號就是0000:09:00。程序
未完待續~~~~方法