Ubuntu server16.04安裝配置驅動418.8七、cuda10.一、cudnn7.6.4.3八、anaconda、pytorch超詳細解決

[TOC]html

Ubuntu server16.04安裝配置驅動418.8七、cuda10.一、cudnn7.6.4.3八、anaconda、pytorch超詳細解決

本篇博文根據本人親裝碰到的問題蒐集總結而成,具體參考見結尾REFERENCEpython

安裝GCC

服務器版未裝有gcc,但英偉達驅動安裝須要gcc,嘗試過換源、更新軟件庫、以及overstack的幾種方法均未能解決,最終發現能夠經過安裝build-essential軟件包來解決問題,它會安裝一堆新包,包括gcc, g++和make。linux

sudo apt install build-essentialgit

安裝NVIDIA驅動

因爲直接安裝cuda若是選擇安裝驅動會直接版本較低的驅動,因此採用先裝驅動後裝cuda的方式。github

1. 卸載原有驅動(沒裝跳過)

  1. 方法1、通用sudo apt-get remove –purge nvidia*
  2. 方法2、 非官網驅動sudo apt-get remove --purge nvidia(版本全稱,如個人nvidia-384.130)
  3. 方法3、官網驅動 sh ./nvidia.run --uninstall

2. 禁用nouveau

安裝NVIDIA須要先禁用系統自帶的驅動vim

  1. 打開文件sudo gedit /etc/modprobe.d/blacklist.confbash

  2. 在文本末尾添加服務器

    blacklist nouveau
    option nouveau modeset=0

    無視warnssh

  3. wq, 執行sudo update-initramfs -uide

  4. 檢測,lsmod | grep nouveau,沒有任何輸出說明禁用成功

3. 安裝NVIDIA顯卡驅動

  1. 查看支持的驅動版本

    sudo apt-cache search nvidia*,通常安裝大於等於最大的版本就好,我安裝的是418.87

  2. 下載NVIDIA驅動,

    官網地址

  3. 禁用X服務(最好有一臺備用電腦,由於這一步會黑屏...由於我是採用ssh鏈接,因此對我沒影響)

    sudo service lightdm stop

  4. 給文件賦執行權限並cd到下載目錄

    cd ~ 
    sudo chmod a+x NVIDIA-Linux-x86_64-384.130.run
  5. 安裝

    sudo sh ./NVIDIA-Linux-x86_64-375.20.run –no-opengl-files

  6. 檢測是否成功 nvidia-smi

安裝CUDA10.1

  1. 官網地址

  2. 禁用X服務(黑屏)

    sudo service lightdm stop

  3. 給文件賦執行權限並安裝

    sudo chmod a+x cuda_10.1.243_418.87.00_linux.run
    
    sudo sh cuda_10.1.243_418.87.00_linux.run --override

    accepted, 除了驅動不選擇,其餘都選。

  4. 打開配置文件 vim ~/.bashrc,末尾寫入

    export PATH=/usr/local/cuda-10.1/bin:$PATH
    export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

    生效 source ~/.bashrc

  5. 檢測是否成功 nvcc -V

安裝cudnn

  1. 官網下載,找到與cuda版本配對的cudnn,查看官網配對,以及更全的版本配對,個人cuda爲10.1因此,cudnn選的是7.6.4

  2. 將下載的添加爲壓縮包並解壓

    # compression
    cp  cudnn-8.0-linux-x64-v5.1.solitairetheme8 good.tgz
    # decompression
    tar -xvf good.tgz
  3. 安裝,其實就是改變文件位置和權限

    sudo cp cuda/include/cudnn.h /usr/local/cuda/include/
    $ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d 
    $ sudo chmod a+r /usr/local/cuda/include/cudnn.h
    $ sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
  4. 查看cudnn版本:

    cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2


以上便配置好服務器,如下爲非root用戶根據須要安裝。

我安裝的是anaconda、tensorflow、pytorch

安裝anaconda

  1. 卸載anaconda(若有) rm-rf ~/anaconda,而後修改配置文件~/.bashrc

  2. 官網下載並安裝

  3. 配置文件/home/yourusername/.profile,在最後一行添加以下

    # Anaconda
    export PATH=$PATH:/home/username/anaconda3/bin

    生效 source /home/username/.profile

安裝tensorflow

查看官網配對,肯定安裝版本

# 若是你安裝的是 Python 3.6 版的Anaconda:
conda create --name tf_gpu_env tensorflow-gpu # tf_gpu_env是這個環境的名字

# 若是你安裝的是 Python 3.7 版的Anaconda,則須要聲明新建立的環境使用 Python 3.6:
conda create --name tf_gpu_env python=3.6 anaconda tensorflow-gpu

安裝pytorch

  1. 新建虛擬環境並激活環境

    conda create -n pytorch python=3.7
    activate pytroch
  2. 查看官網選擇版本,得到代碼

    如個人

解決問題:

  1. ERROR: Cannot uninstall 'wrapt'. during upgrade
  2. tensorboard 1.14.0 has requirement setuptools>=41.0.0, but you'll have setuptools 39.1.0

Reference

http://www.javashuo.com/article/p-kpsasboj-ns.html

https://www.linuxidc.com/Linux/2019-06/159059.htm

https://blog.csdn.net/Eddy_zheng/article/details/52910249

https://blog.csdn.net/DarrenXf/article/details/82182449

https://blog.csdn.net/qq_41620607/article/details/81236525

http://www.javashuo.com/article/p-ojrzasji-bb.html

https://blog.csdn.net/qq_22474567/article/details/54984257

http://www.javashuo.com/article/p-pgypzkqp-q.html

https://github.com/tensorflow/tensorflow/issues/30191

https://blog.csdn.net/weixin_44179909/article/details/96973208

https://zhuanlan.zhihu.com/p/59278962

相關文章
相關標籤/搜索