當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

实验室服务器18.04LTS+RTX2080Ti+CUDA10.0+CUDAnn7.4+tf1.13装机之路

發布時間：2025/3/15 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了实验室服务器18.04LTS+RTX2080Ti+CUDA10.0+CUDAnn7.4+tf1.13装机之路小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

- 一、存在且并未解決的問題
- - 1.安裝ubuntu16.04LTS系統失敗
  - 2.ubuntu18.04LTS系統，DrCom上網掉線
- 二、安裝ubuntu18.04LTS系統
- 三、安裝NVIDIA驅動
- - 1.第一次安裝
  - 2.第二次安裝
- 四、安裝cuda、cudann
- - 4.1 確定TensorFlow版本與CUDA、CUDANN對應的關系
  - 4.2安裝CUDA10.0
  - - 4.2.1 下載cuda
    - 4.2.2 安裝CUDA10.0
    - 4.2.3 添加環境變量
    - 4.2.4 測試CUDA是否安裝成功
  - 4.3 安裝cuDNN7.4
  - - 4.3.1 下載cuDNN
    - 4.3.2 安裝cuDNN
- 五、安裝Anaconda和Pycharm
- - 5.1 安裝Anaconda
  - 5.2 安裝pycharm
- 六、安裝tensorflow
- 七、安裝pytorch

剛進實驗室，之前看過師兄裝機，這次服務器系統壞了之后小白嘗試裝機，記錄一下過程。
期間參考了很多優秀博主的文章，表示十分感謝！

一、存在且并未解決的問題

雖然現在服務器可以用了，但是還有幾個問題沒有解決。希望路過的大神如果看到幫忙解決一下，感謝！
服務器配置：
主板：華碩Z10PA-D8 Series(wellsburg)
處理器：英特爾Xeon(至強)E5-2620 v4(X2)
顯卡：RTX2080Ti

1.安裝ubuntu16.04LTS系統失敗

本來打算安裝ubuntu16.04LTS系統的，但是進入安裝頁面（還沒安裝成功）就顯示running in low graphic mode，看到其他文章里分享的方法都是針對原來的系統完整，開機顯示這個界面的情況的解決方法。
在后來我安裝18.04系統的時候，發現有的教程上寫在u盤啟動的界面，編輯grub.conf文件，禁用noveaus驅動，感覺這個可能是一個解決的方法，但是已經安裝好了18.04版本的，就沒試這個方法。
試了優麒麟版本的也安裝不上，所以才裝的18.04

2.ubuntu18.04LTS系統，DrCom上網掉線

安裝好系統后，第一件事就是上網更新。但是由于使用的校園網，需要DrCom,配好IP地址，登陸DrCom每次過個2、3分鐘就自己掉線，所以后面大部分都是離線安裝的。

當時試了在win10系統下不會掉線，硬件應該沒問題。
換了IP地址也還是會掉線…

二、安裝ubuntu18.04LTS系統

這臺服務器使用Ubuntu較多，所以只安裝了ubuntu，安裝雙系統其實只需要注意分區和啟動項的問題就可以了，在此不再贅述。

下載安裝文件
登陸ubuntu官網或者優麒麟官網選擇18.04LTS desktop版本進行下載，大概1.9個G吧
或者登陸清華園鏡像站搜索ubuntu，release中有各個版本，選擇要安裝的即可。
制作u盤啟動盤
制作工具：Rufus或者軟碟通（ultraISO）
詳細的可參考這篇文章
安裝系統
因為安裝的不是雙系統，所以不存在分區的問題，此處不再寫分區的那些東西了。需要注意的就是以下幾點：
（1）開機時進BIOS選擇u盤為最優先啟動；華碩一般是F2或者delete
（2）禁用BIOS中的secure boot，因為此方法使用第三方源安裝顯卡驅動，不禁止secure boot會導致安裝的驅動不能使用，禁用也不會有多大安全隱患
（3）U盤啟動后，選擇到第二行install Ubuntu，然后按E鍵進入編輯進入命令行模式，然后在quiet slash – 后面(也可能沒有 – )，添加 “acpi_osi=linux nomodeset”，這一步是禁用Nouveau的驅動，因為有的人安裝雙系統可能會卡在安裝logo的界面。我沒進行這一步的操作，但也沒出現卡在安裝logo的問題，可能是因為我只安裝了ubuntu系統吧–.。這一步可參考這篇博客文章。
注意：這一步的改動只是在安裝的時候臨時禁用Nouveau的驅動，并不是永久禁用，所以在安裝成功后，需要在grub的配置文件里面再次更改

$ sudo gedit /boot/grub/grub.cfg

在文本中搜索quiet splash 然后添加acpi_osi=linux nomodeset，保存文本即可。
（4）在選擇“Updates and other software”時，選擇"Normal installation"，這樣一些常用的軟件就默認安裝上了。在“Installation type”中，如果不打算安裝雙系統，直接選擇第一個“Erase ****”，這樣電腦上原先的系統以及相關文件數據等都將全部刪除，因此在此之前一定要備份好重要數據。

系統安裝完的第一件事就是更新一下
sudo apt-get update
sudo apt-get upgrade

三、安裝NVIDIA驅動

推薦這個博主翻譯的三種方法比較實用：https://blog.csdn.net/tjuyanming/article/details/80862290
以及另外禁用nouveau驅動的方法
一共安裝了兩次顯卡驅動，雖然現在機器可以正常運行，但是總感覺哪里不對。

1.第一次安裝

首先，添加圖形驅動程序PPA儲存庫

$ sudo add-apt-repository ppa:graphics-drivers/ppa $ sudo apt update

然后，檢測NVIDIA顯卡型號和推薦的驅動程序的模型。輸入ubuntu-drivers devices
本來應該出現下面的輸出（這是別人的）

$ ubuntu-drivers devices == /sys/devices/pci0000:00/0000:00:01.0/0000:01:00.0 == modalias : pci:v000010DEd00001180sv00001458sd0000353Cbc03sc00i00 vendor : NVIDIA Corporation model : GK104 [GeForce GTX 680] driver : nvidia-304 - distro non-free driver : nvidia-340 - distro non-free driver : nvidia-384 - distro non-free recommended driver : xserver-xorg-video-nouveau - distro free builtin== cpu-microcode.py == driver : intel-microcode - distro free

但是我的輸出沒有model這一項，我就沒管。難道不能識別2080Ti??
推薦的驅動是nvidia-435版本的，當時沒多想，直接在軟件更新里選中并且更改了
（整個過程忘記截圖記錄了，這張也是別人的）

然后安裝結束后reboot，重新打開terminal，輸入nvidia-smi，有顯示安裝成功，就接著安裝cuda/cudann/tensorflow那些了。
PS：但是后面我去英偉達官網查找驅動的時候，發現推薦的最新版本只有430.5

2.第二次安裝

在我很高興的順利的安裝完后面的這些cuda之類的，跑代碼什么也沒問題，過了兩天開機連登陸界面都沒出現，就跳到了 /dev/sdc2 clean ，***files/**block，于是就進行了第二次安裝。具體過程，見這篇文章

四、安裝cuda、cudann

先附上官方的教程吧，有耐心的可以按照官方的來，要穩妥一點
cuda 安裝官方教程： https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#introduction
cudnn 安裝官方教程： https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#overview
（我沒按照這兩個來…）

4.1 確定TensorFlow版本與CUDA、CUDANN對應的關系

參考網址：https://tensorflow.google.cn/install/source

我選擇的是第一條，cuda10.0版本，cuDNN 7.4，不打算自己編譯TensorFlow，所以沒有管Bazel，gcc 4.8版本，python3.6版本
這臺服務器連校園網過兩三分鐘就掉線，所以后面大部分都是下載到本地離線安裝的。

4.2安裝CUDA10.0

4.2.1 下載cuda

進入CUDA官網選擇合適的版本進行下載，第二個是補丁，也要下載的。

4.2.2 安裝CUDA10.0

CD到cuda下載的位置，打開終端輸入：

sudo sh cuda_10.0××.run

先安裝第一個，已知ENTER讀完聲明，前面安裝過顯卡驅動了，這里安裝過程中問要不要安裝的時候，no就可以了，其它的都yes

可能會提示：

***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 384.00 is required for CUDA 10.0 functionality to work.To install the driver using this installer, run the following command, replacing <CudaInstaller> with the name of this run file:sudo <CudaInstaller>.run -silent -driver

這是因為我們在安裝CUDA的時候沒有選擇安裝驅動，提示需要安裝驅動，忽略就行。
然后同樣把補丁安裝上即可。

4.2.3 添加環境變量

首先打開path環境變量文檔：

sudo gedit ~/.bashrc

然后添加環境變量：

export CUDA_HOME=/usr/local/cuda export PATH=$PATH:$CUDA_HOME/bin export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

保存并退出，然后更新一下文檔

source ~/.bashrc

4.2.4 測試CUDA是否安裝成功

使用CUDA的sample測試

cd /usr/local/cuda/samples/1_Utilities/deviceQuery sudo make ./deviceQuery

執行后出現一大段，最后一行是 result pass 說明安裝成功了。

4.3 安裝cuDNN7.4

4.3.1 下載cuDNN

同樣進入官網下載合適的版本，這里需要注冊個賬號。

4.3.2 安裝cuDNN

到剛才下載的位置解壓，運行以下指令把解壓后相應的文件拷貝到對應的CUDA目錄下即可

cd cuda#copy到cuda庫 sudo cp lib64/libcudnn.* /usr/local/lib/ sudo cp include/cudnn.h /usr/local/include/#或者，copy到cuda庫 sudo cp lib64/libcudnn.* /usr/local/cuda/lib64/ sudo cp include/cudnn.h /usr/local/cuda/include/ #給權限 sudo chmod a+r /usr/local/cuda/include/cudnn.h sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

這兩個地方用起來大概沒什么區別，不過一般情況下建議使用/usr/local/cuda/include 和/usr/local/cuda/lib64，比如你要使用pytorch的時候，可以省掉一些手動配置，因為pytorch默認是通過 LD_LIBRARY_PATH來尋找cudnn的。這里參考了這篇文章
下面鏈接cuDNN的庫文件（必須！）注意：使用第二個文件夾的位置的話，這里也要做相應修改

$ sudo ln -sf /usr/local/lib/libcudnn.so.7.4.2 /usr/local/lib/libcudnn.so.7 $ sudo ln -sf /usr/local/lib/libcudnn.so.7 /usr/local/lib/libcudnn.so #鏈接完config更新，完成cuda和cudnn的安裝 $ sudo ldconfig

因為只是cudnn安裝方式是將庫文件放置再cuda目錄下，所以版本萬一不對也不要慌，可以重新刪除再安裝新的版本。
重啟終端，查看cuDNN的版本

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2 #下面的命令可以查看cuda的版本 nvcc -V

到此，CUDA和cuDNN安裝結束！

五、安裝Anaconda和Pycharm

5.1 安裝Anaconda

進入官網或者鏡像網站下載
bash下載的文件即可，一路yes，中間可更改安裝的文件夾
安裝完成后第一件事就是添加鏡像網站

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/ conda config --set show_channel_urls yes conda config --show-sources

添加 Anaconda Python 免費倉庫后，運行 conda install numpy 測試一下吧。
在終端輸入spyder可能沒有，不急，等安裝完tensrflow再安裝spyder就是了。

5.2 安裝pycharm

大體上也是相同的操作。
需要注意的是以下幾點：

Ubuntu18.04版本需要自己創建快捷方式，固定不到docker
TensorFlow和pytorch安裝完成后記得設置一下pycharm和spyder的python解釋器

六、安裝tensorflow

python版本：在創建環境時創建3.6的即可
編譯工具Bazel：不打算自己編譯就忽略它吧
cuDNN和CUDA：上面已安裝完畢
所需要的條件就只剩下更改編譯器GCC的版本了，這里可參考這篇文章

到此，只剩下TensorFlow的安裝了，這里是官方的教程和社區的教程。
源代碼編譯太復雜了，我選擇直接安裝編譯好的。期間也有很多依賴包需要安裝，聯網安裝的。。
離線包在Pypi官網找的，找到對應的cp36（Python3.6）對應下載即可。

七、安裝pytorch

pytorch的官網鏈接

本來可以聯網的話一行代碼就可以安裝好了，但是客戶端老掉只能離線安裝了。
具體安裝的哪個版本忘記了，最后在清華園鏡像下載下來安裝的，還是需要一些依賴包。。好在可以網連個兩三分鐘，剩下那些包都不大，最后磕磕絆絆安裝好了。。。。import torch可以就說明安裝成功了。

總結

以上是生活随笔為你收集整理的实验室服务器18.04LTS+RTX2080Ti+CUDA10.0+CUDAnn7.4+tf1.13装机之路的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。