实验室服务器18.04LTS+RTX2080Ti+CUDA10.0+CUDAnn7.4+tf1.13装机之路
文章目錄
- 一、存在且并未解決的問題
- 1.安裝ubuntu16.04LTS系統失敗
- 2.ubuntu18.04LTS系統,DrCom上網掉線
- 二、安裝ubuntu18.04LTS系統
- 三、安裝NVIDIA驅動
- 1.第一次安裝
- 2.第二次安裝
- 四、安裝cuda、cudann
- 4.1 確定TensorFlow版本與CUDA、CUDANN對應的關系
- 4.2安裝CUDA10.0
- 4.2.1 下載cuda
- 4.2.2 安裝CUDA10.0
- 4.2.3 添加環境變量
- 4.2.4 測試CUDA是否安裝成功
- 4.3 安裝cuDNN7.4
- 4.3.1 下載cuDNN
- 4.3.2 安裝cuDNN
- 五、安裝Anaconda和Pycharm
- 5.1 安裝Anaconda
- 5.2 安裝pycharm
- 六、安裝tensorflow
- 七、安裝pytorch
剛進實驗室,之前看過師兄裝機,這次服務器系統壞了之后小白嘗試裝機,記錄一下過程。
期間參考了很多優秀博主的文章,表示十分感謝!
一、存在且并未解決的問題
雖然現在服務器可以用了,但是還有幾個問題沒有解決。希望路過的大神如果看到幫忙解決一下,感謝!
服務器配置:
主板:華碩Z10PA-D8 Series(wellsburg)
處理器:英特爾Xeon(至強)E5-2620 v4(X2)
顯卡:RTX2080Ti
1.安裝ubuntu16.04LTS系統失敗
本來打算安裝ubuntu16.04LTS系統的,但是進入安裝頁面(還沒安裝成功)就顯示running in low graphic mode,看到其他文章里分享的方法都是針對原來的系統完整,開機顯示這個界面的情況的解決方法。
在后來我安裝18.04系統的時候,發現有的教程上寫在u盤啟動的界面,編輯grub.conf文件,禁用noveaus驅動,感覺這個可能是一個解決的方法,但是已經安裝好了18.04版本的,就沒試這個方法。
試了優麒麟版本的也安裝不上,所以才裝的18.04
2.ubuntu18.04LTS系統,DrCom上網掉線
安裝好系統后,第一件事就是上網更新。但是由于使用的校園網,需要DrCom,配好IP地址,登陸DrCom每次過個2、3分鐘就自己掉線,所以后面大部分都是離線安裝的。
- 當時試了在win10系統下不會掉線,硬件應該沒問題。
- 換了IP地址也還是會掉線…
二、安裝ubuntu18.04LTS系統
這臺服務器使用Ubuntu較多,所以只安裝了ubuntu,安裝雙系統其實只需要注意分區和啟動項的問題就可以了,在此不再贅述。
- 下載安裝文件
登陸ubuntu官網或者優麒麟官網選擇18.04LTS desktop版本進行下載,大概1.9個G吧
或者登陸清華園鏡像站搜索ubuntu,release中有各個版本,選擇要安裝的即可。 - 制作u盤啟動盤
制作工具:Rufus或者軟碟通(ultraISO)
詳細的可參考這篇文章 - 安裝系統
因為安裝的不是雙系統,所以不存在分區的問題,此處不再寫分區的那些東西了。需要注意的就是以下幾點:
(1)開機時進BIOS選擇u盤為最優先啟動;華碩一般是F2或者delete
(2)禁用BIOS中的secure boot,因為此方法使用第三方源安裝顯卡驅動,不禁止secure boot會導致安裝的驅動不能使用,禁用也不會有多大安全隱患
(3)U盤啟動后,選擇到第二行install Ubuntu,然后按E鍵進入編輯進入命令行模式,然后在quiet slash – 后面(也可能沒有 – ),添加 “acpi_osi=linux nomodeset”,這一步是禁用Nouveau的驅動,因為有的人安裝雙系統可能會卡在安裝logo的界面。我沒進行這一步的操作,但也沒出現卡在安裝logo的問題,可能是因為我只安裝了ubuntu系統吧–.。這一步可參考這篇博客文章。
注意:這一步的改動只是在安裝的時候臨時禁用Nouveau的驅動,并不是永久禁用,所以在安裝成功后,需要在grub的配置文件里面再次更改
在文本中搜索quiet splash 然后添加acpi_osi=linux nomodeset,保存文本即可。
(4)在選擇“Updates and other software”時,選擇"Normal installation",這樣一些常用的軟件就默認安裝上了。在“Installation type”中,如果不打算安裝雙系統,直接選擇第一個“Erase ****”,這樣電腦上原先的系統以及相關文件數據等都將全部刪除,因此在此之前一定要備份好重要數據。
系統安裝完的第一件事就是更新一下
sudo apt-get update
sudo apt-get upgrade
三、安裝NVIDIA驅動
推薦這個博主翻譯的三種方法比較實用:https://blog.csdn.net/tjuyanming/article/details/80862290
以及另外禁用nouveau驅動的方法
一共安裝了兩次顯卡驅動,雖然現在機器可以正常運行,但是總感覺哪里不對。
1.第一次安裝
首先,添加圖形驅動程序PPA儲存庫
$ sudo add-apt-repository ppa:graphics-drivers/ppa $ sudo apt update然后,檢測NVIDIA顯卡型號和推薦的驅動程序的模型。輸入ubuntu-drivers devices
本來應該出現下面的輸出(這是別人的)
但是我的輸出沒有model這一項,我就沒管。難道不能識別2080Ti??
推薦的驅動是nvidia-435版本的,當時沒多想,直接在軟件更新里選中并且更改了
(整個過程忘記截圖記錄了,這張也是別人的)
然后安裝結束后reboot,重新打開terminal,輸入nvidia-smi,有顯示安裝成功,就接著安裝cuda/cudann/tensorflow那些了。
PS:但是后面我去英偉達官網查找驅動的時候,發現推薦的最新版本只有430.5
2.第二次安裝
在我很高興的順利的安裝完后面的這些cuda之類的,跑代碼什么也沒問題,過了兩天開機連登陸界面都沒出現,就跳到了 /dev/sdc2 clean ,***files/**block,于是就進行了第二次安裝。具體過程,見這篇文章
四、安裝cuda、cudann
先附上官方的教程吧,有耐心的可以按照官方的來,要穩妥一點
cuda 安裝官方教程: https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#introduction
cudnn 安裝官方教程: https://docs.nvidia.com/deeplearning/sdk/cudnn-install/index.html#overview
(我沒按照這兩個來…)
4.1 確定TensorFlow版本與CUDA、CUDANN對應的關系
參考網址:https://tensorflow.google.cn/install/source
我選擇的是第一條,cuda10.0版本,cuDNN 7.4,不打算自己編譯TensorFlow,所以沒有管Bazel,gcc 4.8版本,python3.6版本
這臺服務器連校園網過兩三分鐘就掉線,所以后面大部分都是下載到本地離線安裝的。
4.2安裝CUDA10.0
4.2.1 下載cuda
進入CUDA官網選擇合適的版本進行下載,第二個是補丁,也要下載的。
4.2.2 安裝CUDA10.0
CD到cuda下載的位置,打開終端輸入:
sudo sh cuda_10.0××.run先安裝第一個,已知ENTER讀完聲明,前面安裝過顯卡驅動了,這里安裝過程中問要不要安裝的時候,no就可以了,其它的都yes
可能會提示:
這是因為我們在安裝CUDA的時候沒有選擇安裝驅動,提示需要安裝驅動,忽略就行。
然后同樣把補丁安裝上即可。
4.2.3 添加環境變量
首先打開path環境變量文檔:
sudo gedit ~/.bashrc然后添加環境變量:
export CUDA_HOME=/usr/local/cuda export PATH=$PATH:$CUDA_HOME/bin export LD_LIBRARY_PATH=/usr/local/cuda-10.0/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}保存并退出,然后更新一下文檔
source ~/.bashrc4.2.4 測試CUDA是否安裝成功
使用CUDA的sample測試
cd /usr/local/cuda/samples/1_Utilities/deviceQuery sudo make ./deviceQuery執行后出現一大段,最后一行是 result pass 說明安裝成功了。
4.3 安裝cuDNN7.4
4.3.1 下載cuDNN
同樣進入官網下載合適的版本,這里需要注冊個賬號。
4.3.2 安裝cuDNN
到剛才下載的位置解壓,運行以下指令把解壓后相應的文件拷貝到對應的CUDA目錄下即可
cd cuda#copy到cuda庫 sudo cp lib64/libcudnn.* /usr/local/lib/ sudo cp include/cudnn.h /usr/local/include/#或者,copy到cuda庫 sudo cp lib64/libcudnn.* /usr/local/cuda/lib64/ sudo cp include/cudnn.h /usr/local/cuda/include/ #給權限 sudo chmod a+r /usr/local/cuda/include/cudnn.h sudo chmod a+r /usr/local/cuda/lib64/libcudnn*這兩個地方用起來大概沒什么區別,不過一般情況下建議使用/usr/local/cuda/include 和/usr/local/cuda/lib64,比如你要使用pytorch的時候,可以省掉一些手動配置,因為pytorch默認是通過 LD_LIBRARY_PATH來尋找cudnn的。這里參考了這篇文章
下面鏈接cuDNN的庫文件(必須!)注意:使用第二個文件夾的位置的話,這里也要做相應修改
因為只是cudnn安裝方式是將庫文件放置再cuda目錄下,所以版本萬一不對也不要慌,可以重新刪除再安裝新的版本。
重啟終端,查看cuDNN的版本
到此,CUDA和cuDNN安裝結束!
五、安裝Anaconda和Pycharm
5.1 安裝Anaconda
- 進入官網或者鏡像網站下載
- bash下載的文件即可,一路yes,中間可更改安裝的文件夾
- 安裝完成后第一件事就是添加鏡像網站
添加 Anaconda Python 免費倉庫后,運行 conda install numpy 測試一下吧。
在終端輸入spyder可能沒有,不急,等安裝完tensrflow再安裝spyder就是了。
5.2 安裝pycharm
大體上也是相同的操作。
需要注意的是以下幾點:
- Ubuntu18.04版本需要自己創建快捷方式,固定不到docker
- TensorFlow和pytorch安裝完成后記得設置一下pycharm和spyder的python解釋器
六、安裝tensorflow
- python版本:在創建環境時創建3.6的即可
- 編譯工具Bazel:不打算自己編譯就忽略它吧
- cuDNN和CUDA:上面已安裝完畢
- 所需要的條件就只剩下更改編譯器GCC的版本了,這里可參考這篇文章
到此,只剩下TensorFlow的安裝了,這里是官方的教程和社區的教程。
源代碼編譯太復雜了,我選擇直接安裝編譯好的。期間也有很多依賴包需要安裝,聯網安裝的。。
離線包在Pypi官網找的,找到對應的cp36(Python3.6)對應下載即可。
七、安裝pytorch
pytorch的官網鏈接
本來可以聯網的話一行代碼就可以安裝好了,但是客戶端老掉只能離線安裝了。
具體安裝的哪個版本忘記了,最后在清華園鏡像下載下來安裝的,還是需要一些依賴包。。好在可以網連個兩三分鐘,剩下那些包都不大,最后磕磕絆絆安裝好了。。。。import torch可以就說明安裝成功了。
總結
以上是生活随笔為你收集整理的实验室服务器18.04LTS+RTX2080Ti+CUDA10.0+CUDAnn7.4+tf1.13装机之路的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在VC中动态加载ODBC的方法
- 下一篇: vc++学习精髓(收集,整理)