服務器類型:Nvidia GPU服務器linux
操做系統:Ubuntu 16.04 LTSdocker
基礎軟件:Docker-ce,Nvidia-Docker,cuda,Nvidia driver等ubuntu
輔助軟件:nvidia-prime,lrzsz等(非必須)服務器
經常使用命令:apt-get install (安裝軟件);apt remove (卸載軟件);網絡
Apt list (查詢軟件列表,包含已安裝);dpkg -i (安裝deb包);工具
Dpkg -l (搜索已安裝 軟件,可配合grep) Dpkg -P (卸載軟件 )ui
安裝步驟:操作系統
注意:全新的環境除nvidia driver外,另個三個軟件應該在全新環境中未涉及,但保險起見,依然要求將driver卸載後再進行從新安裝 ;ci
1、卸載及檢查:rem
1./usr/bin/nvidia-uninstall (卸載驅動);
2./usr/local/cuda/bin/uninstall_cuda_8.0.pl (卸載cuda);
3.docker version (查看docker版本);
4.nvidia-docker version (查看nvidia-docker 版本);
注:以上服務docker和nvidia-docker不強制要求,可卸載與不卸載,但版本要符合兼容要求便可 ;
5.find / -name cuda (檢查各安裝軟件的文件,是否有殘留);
6.nvidia-settings (查詢本機gpu相關信息,僅限於本機圖形化界面使用,遠程方式沒法使用此命令)
2、安裝 :
1.切換到軟件全部目錄並切換到root權限並附於安裝文件的執行權限(+x);
2. ./NVIDIA-Linux-x86_64-375.66.run (安裝driver,按步驟一步一步來便可);
3. ./cuda_8.0.61_375.26_linux.run (安裝cuda,除driver一項選擇no外,其它默認或yes都可);
4.dpkg -i docker-ce_17.06.0-ce-0-ubuntu_amd64.deb (安裝docker-ce,docker-ce,docker.io,docker-engine 只能安裝一個);
5.dpkg -i nvidia-docker_1.0.1-1_amd64.deb (安裝nvidia-docker,依賴於docker-ce,各版本依賴不一樣,具體參考官網);
3、檢查&啓動服務
1.nvidia-smi (查看dirver版本);
2.nvcc -V(查看cuda版本);
3./usr/local/cuda/extras/demo_suite/deviceQuery (查看cuda 驅動及運行環境版本,一致會返回Result=Pass的結果,不一致會返回 Result=Fail及具體錯誤,如出現錯誤須要修正錯誤,不然docker、nvidia或訓練模型時會出錯);
4.prime-select query (查看當前使用的顯卡類型,返回nvidia是正常的,其餘則配置不對,須要安裝 nvidia-prime軟件包);
5.環境變量初始化(/etc/profile),在文件最後增長如下兩行環境信息
export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64
設置完成後從新登陸後生效或source /etc/profile 生效
6.systemctl start docker (啓動docker服務);
7.systemctl start nvidia-docker (啓動nvidia-docker服務,通常會同docker服務啓動,如未啓動須要手動啓動);
8.systemctl enable docker (docker服務開機自動啓動);
9.docker version (查看docker版本);
10.nvidia-docker version (查看nvidia-docker 版本);
注:以上檢查及服務啓動正常後可進行相關模型的docker容器的run(運行);
4、訓練及訓練完成模型對外提供服務
參見Yolo訓練環境或官方手
5、常見問題
Q:Could not load UVM kernel module. Is nvidia-modprobe installed?
A:nvidia gpu驅動未正常安裝,請重裝安裝;
Q:unsupported CUDA version: driver 0.0 < image 8.0 ?
A:安裝的cuda版本低於訓練所須要的版本,須要安裝指定的版本;
Q:CUDA Error: CUDA driver version is insufficient for CUDA runtime version?
A:安裝的CUDA的驅動版本與運行環境環境不一致所致,從新安裝驅動與運行環境,使其檢查結果爲Result=PASS (deviceQuery 工具);
Q:安裝Nvidia驅動過程當中,如使用的圖形化界面安裝服務有可能出現沒法安裝的狀況?
A:請退出退出圖形化界面,使用 init 1 切換到單用戶終端模型式進行驅動的安裝,安裝完成後再經過 inti 2切換成圖形及網絡模型下。