ACK クラスター内のノードは、GPU 共有とスケジューリングをサポートするために cGPU モジュールをインストールする必要があります。このトピックでは、コマンドまたはコンソールを使用してノード上の cGPU モジュールをアップグレードする方法について説明します。
ステップ 1: コンポーネントのアップグレード
クラスタータイプ | コンポーネントのアップグレード方法 |
| ack-ai-installer コンポーネントをアップグレードするには、「共有 GPU スケジューリングコンポーネントのアップグレード」をご参照ください。 |
ACK 専用クラスター | ack-cgpu コンポーネントをアップグレードするには、次の手順を実行します。
|
ステップ 2: 既存ノードのアップグレード
アップグレード中は、ノード上の GPU アプリケーションを停止してください。
最初に 1 つのノードをアップグレードします。GPU アプリケーションが期待どおりに実行されることを確認したら、他の GPU ノードをバッチでアップグレードします。
このメソッドは、ノードのシステムディスクをリセットします。ノードのシステムディスクにデータが含まれている場合は、まずバックアップを作成してください。
1. ノードの削除と再追加
ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。
クラスター ページで、変更するクラスターの名前をクリックします。左側のナビゲーションウィンドウで、 を選択します。
[ノード] ページで、アップグレードする cGPU ノードを選択し、[一括削除] をクリックします。[ノードの削除] ダイアログボックスで、[ノードを自動的にドレイン] を選択します。
削除したノードを元のノードプールに再度追加します。詳細については、「既存のノードをクラスターに追加する」をご参照ください。
重要自動ノード追加方法を選択します。手動で追加した場合、ノードはリセットされません。
2. 結果の確認
次のコマンドを実行して、新しく追加されたノードに対応する cgpu-installer をクエリします。
kubectl get po -l name=cgpu-installer -n kube-system -o wide期待される出力:
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES cgpu-installer-***** 1/1 Running 0 4d2h 192.168.XXX.XX1 cn-beijing.192.168.XXX.XX1 <none> <none> cgpu-installer-**2 1/1 Running 0 4d2h 192.168.XXX.XX2 cn-beijing.192.168.XXX.XX2 <none> <none> cgpu-installer-**3 1/1 Running 0 4d2h 192.168.XXX.XX3 cn-beijing.192.168.XXX.XX3 <none> <none>次のコマンドを実行して、
cgpu-installer-******という名前の Pod にアクセスします。kubectl exec -ti cgpu-installer-xxxxx -n kube-system -- bash次のコマンドを実行して、現在の cGPU バージョンをクエリします。
nsenter -t 1 -i -p -n -u -m -- cat /proc/cgpu_km/version出力例:
1.5.16説明最新の cGPU バージョンについては、「ack-ai-installer」をご参照ください。
cGPU バージョンの互換性
NVIDIA ドライバーの互換性
cGPU バージョン | 互換性のある NVIDIA ドライバー |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | サポート対象:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 | サポート対象:
サポート対象外:
|
1.0.3 0.8.17 0.8.13 | サポート対象:
サポート対象外:
|
インスタンスファミリーの互換性
cGPU バージョン | 互換性のあるインスタンスファミリー |
1.5.20 1.5.19 | サポート対象:
|
1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | サポート対象:
サポート対象外:
|
1.5.8 1.5.7 | サポート対象:
サポート対象外:
|
1.5.6 1.5.5 | サポート対象:
サポート対象外:
|
1.5.3 1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | サポート対象:
サポート対象外:
|
0.8.17 0.8.13 | サポート対象:
サポート対象外:
|
nvidia-container-toolkit の互換性
cGPU バージョン | 互換性のある nvidia-container-toolkit |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 1.5.2 1.0.10 | サポート対象:
|
1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 0.8.17 0.8.13 | サポート対象:
サポート対象外:
|
カーネルバージョンの互換性
cGPU バージョン | 互換性のあるカーネルバージョン |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | サポート対象:
|
1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | サポート対象:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | サポート対象:
|
0.8.17 | サポート対象:
|
0.8.13 0.8.12 0.8.10 | サポート対象:
サポート対象外:
|