记检查和配置一台老旧GPU服务器的过程
in Tutorial with 0 comment
记检查和配置一台老旧GPU服务器的过程
in Tutorial with 0 comment

背景

公司的小机房有台服务器,上面是有插显卡的,通过nvidia-smi可以看到:

test-nvia-smi-2021-10-21

可以看到,无论是 smi版本还是driver版本,都是相当久旧,最重要的是没有 CUDA ,我们的目的是重新配置,尽量新点。之前也搞过,但是没有记录下来,这次记一下。

检查显卡

工具有lshwnvidia-detect,这里两个都去体验一下,推荐lshw

lshw

yum install -y lshw
lshw -numeric -C display
  *-display
       description: 3D controller
       product: GK110BGL [Tesla K40c] [10DE:1024]
       vendor: NVIDIA Corporation [10DE]
       physical id: 0
       bus info: pci@0000:03:00.0
       version: a1
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi pciexpress bus_master cap_list
       configuration: driver=nvidia latency=0
       resources: iomemory:21f0-21ef iomemory:21f0-21ef irq:40 memory:ca000000-caffffff memory:21fe0000000-21fefffffff memory:21ff0000000-21ff1ffffff

上面告诉我们显卡型号是 Tesla K40c

nvidia-detect

yum install nvidia-detect

这里安装过程比较慢,耐心等待,我这里使用了/usr/local/proxychains-ng-master/bin/proxychains4 去加速,下载速度由2kb/s 提升到22kb/s,是的,速度翻了10倍,但依然很慢。

安装完成后,执行,结果如下

[root@original ~]# nvidia-detect -v
Probing for supported NVIDIA devices...
[102b:0532] Matrox Electronics Systems Ltd. MGA G200eW WPCM450
[10de:1024] NVIDIA Corporation GK110BGL [Tesla K40c]
This device requires the current 460.84 NVIDIA driver kmod-nvidia
WARNING: Xorg log file /var/log/Xorg.0.log does not exist
WARNING: Unable to determine Xorg ABI compatibility
WARNING: The driver for this device does not support the current Xorg version

更新显卡驱动

卸载旧驱动

yum remove -y nvidia*
reboot

查找新驱动

进入链接 https://www.nvidia.com/Download/index.aspx?lang=en-us
选择对应的显卡信息,CUDA这里我默认选择最新的 11.4

2021-10-21T12:48:32.png

选择 点击 search ,可以选择下载

2021-10-21T12:49:00.png

然后搞到下载链接后
下载链接:https://us.download.nvidia.com/tesla/470.57.02/NVIDIA-Linux-x86_64-470.57.02.run

wget https://us.download.nvidia.com/tesla/470.57.02/NVIDIA-Linux-x86_64-470.57.02.run

我这边是下载到 /root 目录下的。

屏蔽 nouveau

/lib/modprobe.d/dist-blacklist.conf中,将nvidiafb注释掉

#blacklist nvidiafb

再在该文件中添加一下配置:

blacklist nouveau  
options nouveau modeset=0 

安装新驱动

chmod a+x NVIDIA-Linux-x86_64-470.57.02.run # 给驱动增加执行权限
./NVIDIA-Linux-x86_64-470.57.02.run -no-x-check -no-nouveau-check -no-opengl-files

命令解释:

安装过程是一个 图形化界面,遇到Install NVIDIA's 32-bit compatibility libraries时选择 No

遇到Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up.时,选择 Yes

检查

lspci |grep NVIDIA
03:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40c] (rev a1)
nvidia-smi
Thu Oct 21 18:29:45 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla K40c          Off  | 00000000:03:00.0 Off |                    0 |
| 23%   40C    P0    67W / 235W |      0MiB / 11441MiB |     98%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

看到这里,我们已经安装成功了,但是还需要再一次重启

reboot

安装CUDA

下载

到官方链接 https://developer.nvidia.com/cuda-toolkit-archive

2021-10-21T16:31:20.png

因为 CUDA Version: 11.4 ,这里选择了11.4.2

2021-10-21T16:31:41.png

直接下载和安装,文件比较大,下载很慢,建议使用代理加速

安装

wget https://developer.download.nvidia.com/compute/cuda/11.4.2/local_installers/cuda_11.4.2_470.57.02_linux.run
sudo sh cuda_11.4.2_470.57.02_linux.run

显卡情况

可以看到,我们的显卡型号是 Tesla K40c,这是一款相对老的显卡了。这里有个 1080 vs K40c 的对比链接 https://versus.com/cn/nvidia-geforce-gtx-1080-vs-nvidia-tesla-k40

2021-10-21T16:32:41.png

我们可以看到 K40c 的功耗是要比1080高的,晶体管少了100w,芯片工艺是28nm,那 K40c有什么地方是比 1080 好,那就是显存是12GB,比1080的8GB多了4GB,内存总线宽度是384bit 比1080的256bit大了128bit,处理单元2880也比1080的2560多了320。更多信息可以查看链接。
虽然这张卡有些年头了(2013年发布),但是当时也是很贵的一张卡,显存也大,某宝现在也就1000刚出头,性价比很高。


收官~ 👊

Responses