RDS Custom AI ノードへの NVIDIA Tesla _driver、CUDA、cuDNN のインストールとアンインストール - RDS

RDS Custom AI ノードを作成すると、システムはデフォルトで NVIDIA Tesla ドライバー、CUDA、および cuDNN をインストールします。これらのコンポーネントのデフォルトバージョンが要件を満たさなくなった場合は、既存のバージョンをアンインストールして、必要なバージョンをインストールできます。

前提条件

RDS Custom AI ノードインスタンスが作成されていること

Tesla ドライバー、CUDA、cuDNN のアンインストール

このトピックでは、Alibaba Cloud Linux 3 に Tesla ドライバー 575.57.08、CUDA 12.9.0、および cuDNN 9.10.2 をインストールする例を示します。手順は次のとおりです。

RDS Custom インスタンスへの接続。
次のコマンドを実行し、インターフェイスのプロンプトに従って Tesla ドライバーをアンインストールします。
```
/usr/bin/nvidia-uninstall
```
CUDA をアンインストールします。
方法 1: CUDA パッケージと関連する構成ファイルを手動で削除する
1. CUDA パッケージと関連する構成を手動で削除します。
```
# CUDA パッケージをアンインストールします
sudo dnf remove 'cuda*'

# リポジトリ構成を削除します
sudo rm /etc/yum.repos.d/cuda*.repo

# キャッシュをクリーンアップします
sudo dnf clean all
```
2. nvcc --version コマンドを実行して、CUDA がアンインストールされたかどうかを確認します。
  プロンプト command not found が表示されたら、CUDA は正常にアンインストールされています。
方法 2: uninstall_cuda ファイルを使用してアンインストールする
説明
CUDA のバージョンによってアンインストールコマンドが異なる場合があります。cuda-uninstaller ファイルが見つからない場合は、/usr/local/cuda/bin/ ディレクトリに uninstall_cuda で始まるファイルが存在するかどうかを確認してください。
存在する場合は、コマンドの cuda-uninstaller をそのファイル名に置き換えます。
存在しない場合は、方法 1 を使用してアンインストールします。
```
/usr/local/cuda/bin/cuda-uninstaller
rm -rf /usr/local/cuda-12.9
```
出力に Successfully が表示されたら、アンインストールは成功です。
cuDNN をアンインストールします。
1. 次のコマンドを実行して、インストールされている cuDNN 関連パッケージの名前を確認します。
```
rpm -qa | grep cudnn
```
  次の結果が返されます。
```
cudnn9-cuda-12-9.10.2.21-1.x86_64
libcudnn9-cuda-12-9.10.2.21-1.x86_64
libcudnn9-static-cuda-12-9.10.2.21-1.x86_64
...
```
2. dnf remove コマンドを実行して、各ターゲットパッケージをアンインストールします。
```
sudo dnf remove cudnn9-cuda-12-9.10.2.21-1.x86_64
sudo dnf remove libcudnn9-cuda-12-9.10.2.21-1.x86_64
sudo dnf remove libcudnn9-static-cuda-12-9.10.2.21-1.x86_64
```
3. 次のコマンドを実行して、残りの依存関係をクリーンアップします。
```
sudo dnf autoremove
```
4. アンインストール結果を検証します。
```
rpm -qa | grep cudnn
```
  出力が空の場合、アンインストールは成功です。それ以外の場合は、引き続き dnf remove を実行して残りのパッケージをアンインストールします。

Tesla ドライバーのインストール

ステップ 1: NVIDIA Tesla ドライバーのダウンロード

NVIDIA ドライバーダウンロードページにアクセスします。
説明
NVIDIA ドライバーのインストールと構成の詳細については、「NVIDIA Driver Installation Quickstart Guide」をご参照ください。
RDS Custom インスタンスタイプに基づいて適切な検索条件を設定し、適切なドライバーを見つけて選択します。
ダウンロードするドライバーを見つけ、対応するドライバーの横にある [表示] をクリックします。
ダウンロードするドライバーの製品ページで、[ダウンロード] を右クリックしてリンクアドレスをコピーします。
RDS Custom インスタンスへの接続。
次のコマンドを実行して、ドライバーインストールパッケージをダウンロードします。
コマンド例のドライバーダウンロード URL は、ステップ 4 で取得したドライバーダウンロードリンクです。
```
wget https://us.download.nvidia.com/tesla/575.57.08/NVIDIA-Linux-x86_64-575.57.08.run
```

ステップ 2: NVIDIA Tesla ドライバーのインストール

Alibaba Cloud Linux/CentOS

次のコマンドを実行して、GPU インスタンスに kernel-devel および kernel-headers パッケージがインストールされているかどうかを確認します。
```
sudo rpm  -qa | grep $(uname -r)
```
- コマンド出力に kernel-devel および kernel-headers パッケージのバージョン情報が含まれている場合、パッケージはインストールされています。コマンド出力例:
```
kernel-3.10.0-1062.18.1.el7.x86_64
kernel-devel-3.10.0-1062.18.1.el7.x86_64
kernel-headers-3.10.0-1062.18.1.el7.x86_64
```
- コマンド出力に kernel-devel-* および kernel-headers-* が見つからない場合は、カーネルバージョンに一致する kernel-devel および kernel-headers パッケージをダウンロードしてインストールする必要があります。
  重要
  kernel-devel のバージョンがカーネルのバージョンと異なる場合、ドライバーの RPM Package Manager (RPM) をインストールするときにコンパイルエラーが発生します。したがって、対応する kernel-devel バージョンをダウンロードする前に、コマンド出力で kernel-* のバージョン番号を確認してください。上記のコマンド出力では、カーネルバージョンは 3.10.0-1062.18.1.el7.x86_64 です。
Tesla ドライバーのインストールパッケージに権限を付与し、ドライバーをインストールします。
この例では、Linux 64 ビット Tesla ドライバーを使用します。Tesla ドライバーには、NVIDIA-Linux-x86_64-xxxx.run パッケージなどの .run インストールパッケージを使用することをお勧めします。次のコマンドを実行して、インストールパッケージに実行権限を付与し、Tesla ドライバーをインストールします。
説明
.deb や .rpm などの他のフォーマットの Tesla ドライバーを使用する場合、特定のインストール方法については、「NVIDIA CUDA Installation Guide for Linux」をご参照ください。
```
# 権限を付与します
sudo chmod +x NVIDIA-Linux-x86_64-xxxx.run
# インストールします
sudo sh NVIDIA-Linux-x86_64-xxxx.run
```
次のコマンドを実行して、Tesla ドライバーがインストールされているかどうかを確認します:
```
nvidia-smi
```
出力に Tesla ドライバーの詳細情報が表示されたら、インストールは成功です。
(オプション) NVIDIA Persistence Daemon を使用して Persistence-M を有効にします。
Tesla ドライバーのインストール後、Persistence-M はデフォルトで無効 (off) になっています。Persistence-M を有効にすると、Tesla ドライバーはより安定します。業務継続性を確保するために、NVIDIA Persistence Daemon を使用して Persistence-M を有効にすることをお勧めします。詳細については、「Persistence Daemon」をご参照ください。
説明
- Persistence-M は、GPU を初期化状態に保つためのユーザー設定可能なドライバープロパティの term です。
- nvidia-smi -pm 1 を使用して Persistence-M を有効にすると、インスタンスの再起動後に設定が無効になるなどの問題が発生する可能性があります。詳細については、「GPU インスタンスの再起動後に永続モードが無効になり、ECC ステータスまたは MIG 機能の設定も失敗する」をご参照ください。NVIDIA Persistence Daemon を使用して Persistence-M を有効にすることをお勧めします。
1. 次のコマンドを実行して、NVIDIA Persistence Daemon を実行します:
```
sudo nvidia-persistenced --user username 
# username はお使いのユーザー名です。
```
2. 次のコマンドを実行して、Persistence-M のステータスを表示します:
```
nvidia-smi
```
  次のコマンド出力が表示された場合、Persistence-M は有効 (on) になっています。
(オプション) システムの再起動後に Persistence-M を有効にします。
システムが再起動されると、Persistence-M は無効 (on) になります。次の操作を実行して、Persistence-M を再度有効にすることができます。
Tesla ドライバーインストールパッケージをインストールすることにより、NVIDIA が提供するインストールスクリプト (サンプルスクリプトやインストーラスクリプトなど) が /usr/share/doc/NVIDIA_GLX-1.0/samples/nvidia-persistenced-init.tar.bz2 パスにインストールされます。
1. 次のコマンドを実行して、NVIDIA が提供するインストールスクリプトを解凍してインストールします:
```
cd /usr/share/doc/NVIDIA_GLX-1.0/samples/
sudo tar xf nvidia-persistenced-init.tar.bz2
cd nvidia-persistenced-init
sudo sh install.sh
```
2. 次のコマンドを実行して、NVIDIA Persistence Daemon が期待どおりに実行されるかどうかを確認します:
```
sudo systemctl status nvidia-persistenced
```
  次のコマンド出力が表示された場合、NVIDIA Persistence Daemon は期待どおりに実行されています。
  説明
  オペレーティングシステムに基づいて NVIDIA Persistence Daemon インストールスクリプトを適応させて、NVIDIA Persistence Daemon が期待どおりに動作することを確認できます。
3. 次のコマンドを実行して、Persistence-M が再度有効 (on) になっていることを確認します。
```
nvidia-smi
```
4. (オプション) 次のコマンドを実行して、NVIDIA Persistence Daemon を無効にします。
  必要に応じて NVIDIA Persistence Daemon を無効にできます。
```
sudo systemctl stop nvidia-persistenced
sudo systemctl disable nvidia-persistenced
```

Ubuntu およびその他

Tesla ドライバーのインストールパッケージに権限を付与し、ドライバーをインストールします。
この例では、Linux 64 ビット Tesla ドライバーを使用します。Tesla ドライバーには、NVIDIA-Linux-x86_64-xxxx.run パッケージなどの .run インストールパッケージを使用することをお勧めします。次のコマンドを実行して、インストールパッケージに実行権限を付与し、Tesla ドライバーをインストールします。
説明
.deb や .rpm などの他のフォーマットの Tesla ドライバーを使用する場合、特定のインストール方法については、「NVIDIA CUDA Installation Guide for Linux」をご参照ください。
```
# 権限を付与します
sudo chmod +x NVIDIA-Linux-x86_64-xxxx.run
# インストールします
sudo sh NVIDIA-Linux-x86_64-xxxx.run
```
次のコマンドを実行して、Tesla ドライバーがインストールされているかどうかを確認します:
```
nvidia-smi
```
出力に Tesla ドライバーの詳細情報が表示されたら、インストールは成功です。
(オプション) NVIDIA Persistence Daemon を使用して Persistence-M を有効にします。
Tesla ドライバーのインストール後、Persistence-M はデフォルトで無効 (off) になっています。Persistence-M を有効にすると、Tesla ドライバーはより安定します。業務継続性を確保するために、NVIDIA Persistence Daemon を使用して Persistence-M を有効にすることをお勧めします。詳細については、「Persistence Daemon」をご参照ください。
説明
- Persistence-M は、GPU を初期化状態に保つためのユーザー設定可能なドライバープロパティの term です。
- nvidia-smi -pm 1 を使用して Persistence-M を有効にすると、インスタンスの再起動後に設定が無効になるなどの問題が発生する可能性があります。詳細については、「GPU インスタンスの再起動後に永続モードが無効になり、ECC ステータスまたは MIG 機能の設定も失敗する」をご参照ください。NVIDIA Persistence Daemon を使用して Persistence-M を有効にすることをお勧めします。
1. 次のコマンドを実行して、NVIDIA Persistence Daemon を実行します:
```
sudo nvidia-persistenced --user username 
# username はお使いのユーザー名です。
```
2. 次のコマンドを実行して、Persistence-M のステータスを表示します:
```
nvidia-smi
```
  次のコマンド出力が表示された場合、Persistence-M は有効 (on) になっています。
(オプション) システムの再起動後に Persistence-M を有効にします。
システムが再起動されると、Persistence-M は無効 (on) になります。次の操作を実行して、Persistence-M を再度有効にすることができます。
Tesla ドライバーインストールパッケージをインストールすることにより、NVIDIA が提供するインストールスクリプト (サンプルスクリプトやインストーラスクリプトなど) が /usr/share/doc/NVIDIA_GLX-1.0/samples/nvidia-persistenced-init.tar.bz2 パスにインストールされます。
1. 次のコマンドを実行して、NVIDIA が提供するインストールスクリプトを解凍してインストールします:
```
cd /usr/share/doc/NVIDIA_GLX-1.0/samples/
sudo tar xf nvidia-persistenced-init.tar.bz2
cd nvidia-persistenced-init
sudo sh install.sh
```
2. 次のコマンドを実行して、NVIDIA Persistence Daemon が期待どおりに実行されるかどうかを確認します:
```
sudo systemctl status nvidia-persistenced
```
  次のコマンド出力が表示された場合、NVIDIA Persistence Daemon は期待どおりに実行されています。
  説明
  オペレーティングシステムに基づいて NVIDIA Persistence Daemon インストールスクリプトを適応させて、NVIDIA Persistence Daemon が期待どおりに動作することを確認できます。
3. 次のコマンドを実行して、Persistence-M が再度有効 (on) になっていることを確認します。
```
nvidia-smi
```
4. (オプション) 次のコマンドを実行して、NVIDIA Persistence Daemon を無効にします。
  必要に応じて NVIDIA Persistence Daemon を無効にできます。
```
sudo systemctl stop nvidia-persistenced
sudo systemctl disable nvidia-persistenced
```

CUDA のインストール

CUDA インストールパッケージを取得します。
1. CUDA Toolkit Archive ページに移動します。
2. ドライバーに対応する CUDA バージョンをクリックします。
3. [Operating System] で、必要に応じてオペレーティングシステム、アーキテクチャ、またはバージョンのパラメーターを選択して、対応する CUDA インストールパッケージのダウンロード URL とインストールコマンドを取得します。
  説明
  このトピックでは、CUDA 12.9.0 と Linux オペレーティングシステム RHEL 8 (Alibaba Cloud Linux 3 は RHEL 8 と互換性があります) を例として使用します。

CUDA をインストールします。

RDS Custom インスタンスへの接続。

次のコマンドを順番に実行して CUDA をインストールします。

wget https://developer.download.nvidia.com/compute/cuda/12.9.0/local_installers/cuda-repo-rhel8-12-9-local-12.9.0_575.51.03-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel8-12-9-local-12.9.0_575.51.03-1.x86_64.rpm
sudo dnf clean all
sudo dnf -y install cuda-toolkit-12-9

次のコマンドを順番に実行して、CUDA 環境変数を構成します:

echo 'export PATH=/usr/local/cuda/bin:$PATH' | sudo tee /etc/profile.d/cuda.sh
source /etc/profile

インスタンスに CUDA がインストールされているかどうかを確認します。
nvcc -V コマンドを実行して、CUDA のインストールバージョンが正しいかどうかを確認します。
次の結果が返されます。
```
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2025 NVIDIA Corporation
Built on Wed_Apr__9_19:24:57_PDT_2025
Cuda compilation tools, release 12.9, V12.9.41
Build cuda_12.9.r12.9/compiler.35813241_0
```

cuDNN のインストール

cuDNN インストールパッケージを取得します。
1. CUDA Deep Neural Network (cuDNN) | NVIDIA Developer ページに移動します。
2. [Download CuDNN Library] をクリックします。
3. [Operating System] で、必要に応じてオペレーティングシステム、アーキテクチャ、またはバージョンのパラメーターを選択して、対応する cuDNN インストールパッケージのダウンロード URL とインストールコマンドを取得します。
  デフォルトでは最新バージョンの cuDNN がダウンロードされます。[Archive Of Previous Releases] をクリックして、必要なバージョンを選択してダウンロードすることもできます。
  説明
  このトピックでは、cuDNN 9.10.2 と Linux オペレーティングシステム RHEL 8 (Alibaba Cloud Linux 3 は RHEL 8 と互換性があります) を例として使用します。
cuDNN をインストールします。
1. RDS Custom インスタンスへの接続。
2. 次のコマンドを順番に実行して cuDNN をインストールします。wget https://developer.download.nvidia.com/compute/cudnn/9.10.2/local_installers/cudnn-local-repo-rhel8-9.10.2-1.0-1.x86_64.rpm sudo rpm -i cudnn-local-repo-rhel8-9.10.2-1.0-1.x86_64.rpm sudo dnf clean all sudo dnf -y install cudnn-cuda-12
```
wget https://developer.download.nvidia.com/compute/cudnn/9.10.2/local_installers/cudnn-local-repo-rhel8-9.10.2-1.0-1.x86_64.rpm
sudo rpm -i cudnn-local-repo-rhel8-9.10.2-1.0-1.x86_64.rpm
sudo dnf clean all
sudo dnf -y install cudnn-cuda-12
```
(オプション) システムがデフォルトで cudnn.h、libcudnn.so*、および cudnn_version.h を /usr/include/ ディレクトリにインストールする場合、次のコマンドを実行してこれらのファイルを /usr/local/cuda/ 配下の対応するディレクトリにリンクします。
1. 次のコマンドを実行して、libcudnn.so* およびその他の cuDNN ライブラリファイルを /usr/local/cuda/lib64/ にリンクします。
```
sudo ln -s /usr/lib64/libcudnn.so.9.10.2 /usr/local/cuda/lib64/libcudnn.so.9.10.2
sudo ln -s /usr/local/cuda/lib64/libcudnn.so.9.10.2 /usr/local/cuda/lib64/libcudnn.so.9
sudo ln -s /usr/local/cuda/lib64/libcudnn.so.9 /usr/local/cuda/lib64/libcudnn.so
```
  ls -l /usr/local/cuda/lib64/libcudnn.so* を実行してリンク結果を検証します。
2. 次のコマンドを実行して、cudnn.h と cudnn_version.h を /usr/local/cuda/include にリンクします。
```
sudo ln -s /usr/include/cudnn.h /usr/local/cuda/include/cudnn.h
sudo ln -s /usr/include/cudnn_version.h /usr/local/cuda/include/cudnn_version.h
```
  ls -l /usr/local/cuda/include/cudnn* を実行してリンク結果を検証します。

cuDNN が正常にインストールされたかどうかを確認します。

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

次の結果が返されます。

#define CUDNN_MAJOR 9
#define CUDNN_MINOR 10
#define CUDNN_PATCHLEVEL 2
--

:RDS Custom AI ノードへの Tesla ドライバー、CUDA、cuDNN のインストール