摘要:安装 GPU 服务器系统时,驱动安装是关键环节,直接影响 GPU 性能的发挥。以下是针对 NVIDIA GPU(主流选择)的驱动安装流程及注意事项,其他品牌(如 AMD)可参考类似逻辑:一、驱动安装前的准备1. 确认硬件兼容性 - 访问显卡厂商官网(如 [NVIDIA 驱动下载页面](https://www.nvidia.com/Dow...
安装 GPU 服务器系统时,驱动安装是关键环节,直接影响 GPU 性能的发挥。以下是针对 NVIDIA GPU(主流选择)的驱动安装流程及注意事项,其他品牌(如 AMD)可参考类似逻辑:
一、驱动安装前的准备
1. 确认硬件兼容性
- 访问显卡厂商官网(如 [NVIDIA 驱动下载页面](https://www.nvidia.com/Download/index.aspx)),输入 GPU 型号(如 RTX 4090、A100)和操作系统,获取兼容的驱动版本。
- 注意:服务器 GPU(如 Tesla 系列)需下载 数据中心驱动(Data Center Driver),而非消费级显卡的游戏驱动(Game Ready Driver)。
2. 确认操作系统版本
- 主流服务器系统为 Linux(如 Ubuntu、CentOS),需提前安装好系统并更新软件包:
```bash
# Ubuntu/Debian 系统
sudo apt update && sudo apt upgrade -y
# CentOS/RHEL 系统
sudo yum update -y
```
3. 禁用 Nouveau 开源驱动(Linux 系统必做)
- Nouveau 是 Linux 自带的开源显卡驱动,可能与 NVIDIA 官方驱动冲突,需手动禁用:
```bash
# 新建配置文件
sudo nano /etc/modprobe.d/blacklist-nouveau.conf
# 添加以下内容
blacklist nouveau
options nouveau modeset=0
# 保存并退出(Ctrl+O → Ctrl+X)
# 重新生成内核initramfs
sudo update-initramfs -u
# 重启系统
sudo reboot
```
- 重启后检查是否禁用成功:
```bash
lsmod | grep nouveau # 若无输出,说明禁用成功
```
二、驱动安装方式(以 Linux 为例)
# 方式 1:通过官方.run 安装包安装(推荐)
1. 下载驱动安装包
- 从 NVIDIA 官网下载对应版本的 `.run` 文件(如 `NVIDIA-Linux-x86_64-535.54.03.run`)。
2. 进入文本模式(关闭图形界面)
- 为避免驱动安装时与图形界面冲突,需切换至 文本终端(TTY):
```bash
sudo systemctl stop lightdm # 关闭 Ubuntu 的图形服务
sudo systemctl set-default multi-user.target # 临时切换至文本模式(重启后恢复图形界面)
sudo reboot # 重启后会进入文本登录界面
```
- 登录后,按 `Ctrl+Alt+F2` 进入终端(若未自动进入)。
3. 安装依赖工具
```bash
sudo apt install -y build-essential dkms linux-headers-$(uname -r)
```
4. 运行驱动安装程序
```bash
chmod +x NVIDIA-Linux-x86_64-*.run # 添加执行权限
sudo ./NVIDIA-Linux-x86_64-*.run --no-opengl-files # --no-opengl-files 表示仅安装计算驱动(非图形驱动)
```
- 安装过程中根据提示操作:
- 取消勾选 “Install NVIDIA's 32-bit compatibility libraries”(除非有特殊需求)。
- 确认安装路径和模块加载选项,建议保持默认。
5. 验证驱动安装
```bash
nvidia-smi # 若显示 GPU 信息(如型号、温度、驱动版本),则安装成功
```
# 方式 2:通过包管理器安装(适用于 Ubuntu/Debian)
1. 添加 NVIDIA 官方源
```bash
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
```
2. 查找可用驱动版本
```bash
ubuntu-drivers devices # 列出推荐的驱动版本
```
3. 安装指定驱动
```bash
sudo apt install nvidia-driver-<版本号> # 例如:sudo apt install nvidia-driver-535
```
4. 重启并验证
```bash
sudo reboot
nvidia-smi
```
三、注意事项与常见问题
1. 驱动版本与 CUDA 版本匹配
- CUDA(NVIDIA 并行计算架构)依赖特定驱动版本,需确保两者兼容:
- 查看 [CUDA 工具包与驱动版本对应表](https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#cuda-toolkit-driver-compatibility)。
- 例如:CUDA 12.0 要求驱动版本 ≥ 525.89.02。
2. 多 GPU 服务器的驱动安装
- 驱动会自动识别多块 GPU,无需重复安装,但需确保所有 GPU 型号兼容同一驱动版本。
3. 防火墙与网络限制
- 若服务器需联网安装依赖(如通过包管理器),需提前配置防火墙放行相关端口(如 `80`、`443`)。
4. 卸载旧驱动
- 若之前安装过其他版本驱动,需先卸载:
```bash
# 卸载.run安装的驱动
sudo ./NVIDIA-Linux-x86_64-*.run --uninstall
# 卸载包管理器安装的驱动
sudo apt remove --purge nvidia-*
```
5. 内核更新后的处理
- 系统内核更新后,驱动模块可能失效,需重新安装驱动或运行 `dkms install` 更新模块:
```bash
sudo dkms autoinstall
```
四、Windows 系统驱动安装(简要)
1. 下载驱动
- 从 NVIDIA 官网下载 Windows 版本驱动(如 `.exe` 文件)。
2. 安装驱动
- 双击运行安装程序,选择 “自定义安装”,勾选 “仅安装驱动程序”(可取消图形组件以节省资源)。
3. 验证
- 打开命令提示符,输入 `nvidia-smi` 查看 GPU 信息。
五、参考链接
- [NVIDIA 驱动下载页面](https://www.nvidia.com/Download/index.aspx)
- [CUDA 与驱动兼容性列表](https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html#cuda-toolkit-driver-compatibility)
- [NVIDIA Linux 驱动安装指南](https://docs.nvidia.com/display/Linux/Installation+Guide+for+NVIDIA+Linux+GPU+Drivers)
通过以上步骤,可确保 GPU 驱动正确安装并充分发挥性能。若遇到问题(如驱动冲突、安装失败),建议参考官方文档或提供具体错误日志进一步排查。