ノードに NVIDIA ドライバーをインストールする際は、ACK がサポートするバージョンを使用する必要があります。このトピックでは、ACK がサポートする NVIDIA ドライバーバージョンを一覧表示します。
CUDA の概要
CUDA は、2007 年に NVIDIA によって導入された並列コンピューティングプラットフォームおよびプログラミングモデルです。CUDA はグラフィックス処理装置 (GPU) を活用し、計算性能を大幅に向上させます。
次の図は、CUDA アーキテクチャを示しています。CUDA ソフトウェアスタックにおける Driver API と Runtime API レイヤーの主な違いは次のとおりです。
Driver API: 全機能を提供しますが、使用が複雑です。
CUDA Runtime API: Driver API の一部をラップし、特定のドライバー初期化操作を隠蔽するため、使用が容易になります。
CUDA Driver API は NVIDIA ドライバーパッケージによって提供され、CUDA ライブラリと CUDA Runtime は CUDA Toolkit パッケージによって提供されます。

ドライバーとクラスターバージョンの互換性
次の表に、各 ACK クラスターバージョンでサポートされている NVIDIA GPU ドライバーバージョンを一覧表示します。
LINGJUN Clusters と ACK managed clusters Pro Edition は、OS イメージに GPU ドライバーがプリインストールされており、ノードラベルを使用して特定の GPU ドライバーバージョンをインストールすることはサポートしていません。ACK Edge clusters は、ノードプールラベルを使用して特定の GPU ドライバーバージョンをインストールすることはサポートしていません。
現在、ドライバーバージョン 510 以降では、XID 119 または XID 120 エラーが時折発生する可能性があります。これらの問題が発生した場合は、トラブルシューティング手順について「XID 119/XID 120 エラーによる GPU 切断のトラブルシューティング方法」をご参照ください。
ドライバーバージョン 550 には、頻繁に発生する XID 119、XID 120、または XID 31 エラー、および特定のアプリケーションにおけるカーネルパニックの問題に対する修正が含まれています。既存の GPU ノードをドライバーバージョン 550 にアップグレードできます。
ACK は、異なるクラスターバージョンに対してデフォルトのドライバーバージョンを定期的に更新します。これにより、ご利用のクラスターで新しく作成された GPU ノードが異なるドライバーバージョンを使用する可能性があります。これを防ぐには、ノードプールにドライバーバージョンを指定できます。詳細については、「バージョン番号を指定してノードの GPU ドライバーバージョンをカスタマイズ」をご参照ください。
ノードプールを作成する際、指定したドライバーバージョンが「ドライバーとオペレーティングシステムカーネルバージョンの互換性」に記載されていない場合、ACK は自動的にデフォルトのドライバーバージョンをインストールします。最新の OS と互換性のないドライバーバージョンを指定すると、ノードの追加に失敗する可能性があります。この場合、最新のサポートされているドライバーバージョンを選択してください。
OS カーネルバージョンをアップグレードした後、ノードにインストールされている GPU ドライバーが利用できなくなる場合があります。この問題を解決するには、ノードをノードプールから削除し、再度追加します。また、「GPU ノードドライバーの手動アップグレード」も可能です。
ドライバーシリーズ 570 以降で監視コンポーネントを使用する場合、コンポーネントバージョンが次の要件を満たしていることを確認してください: ack-arms-prometheus ≥ 1.1.33 および ack-gpu-exporter ≥ 2.3.0。
ノードプール内のノードの GPU ドライバーバージョンを「バージョン番号を指定してカスタマイズ」するか、「OSS URL を使用してカスタマイズ」した場合、OS イメージのアップグレード後にオペレーティングシステムとドライバーバージョンが互換性を持たなくなる可能性があります。「ACK がサポートする NVIDIA ドライバーバージョン」を参照し、最新の互換性のあるドライバーを選択してください。
インスタンスファミリーが
gn9tの場合、ドライバーバージョン 570.153.02 より前のバージョンは使用しないでください。これは、頻繁に GPU デバイスの切断をトリガーする可能性があるためです。症状は次のとおりです。nvidia-smiコマンドを実行すると、物理的に存在する GPU の数よりも少ない GPU が表示されるか、No devices were foundと出力されます。lspci | grep -i nvidiaコマンドを実行してもデバイスは検出されますが、デバイスステータスが[rev b0]と表示されます。
クラスターバージョン | デフォルトドライバーバージョン | カスタムドライバーバージョンをサポートしますか? | サポートされている NVIDIA ドライバーバージョン |
1.28 以降 | 535.161.07 570.169 (ecs.gn9t および ecs.ebmgn9t インスタンスの場合) | はい |
次のドライバーバージョンは、最新のオペレーティングシステムと互換性がありません。
|
1.26 | はい | ||
1.24 | はい | ||
1.22 | はい | ||
1.20 | はい |
| |
1.18.8 | 418.181.07 | はい | |
1.16.9 | 418.181.07 | はい | |
1.16.6 | 418.87.01 | いいえ | |
1.14.8 | 418.181.07 | はい |
ドライバーと GPU カードタイプ/インスタンスタイプの互換性
ドライバーとオペレーティングシステムカーネルバージョンの互換性
カーネルバージョンと OS イメージ ID のマッピングについては、「カーネルバージョンとイメージ ID のマッピングテーブル」をご参照ください。
ドライバーバージョン | Alibaba Cloud Linux 2 | Alibaba Cloud Linux 3 | CentOS | Ubuntu |
570.195.03 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | 非サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
570.169 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | 非サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
570.133.20 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | 非サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
550.163.01 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
550.144.03 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
550.90.07 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
550.54.15 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
550.54.14 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
535.247.01 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
535.230.02 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
535.161.07 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
535.129.03 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-17.3.al8.x86_64] 非サポート範囲: [5.10.134-18.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
535.98 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-17.3.al8.x86_64] 非サポート範囲: [5.10.134-18.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
535.54.03 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-17.3.al8.x86_64] 非サポート範囲: [5.10.134-18.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
525.147.05 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-17.3.al8.x86_64] 非サポート範囲: [5.10.134-18.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
525.105.17 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-17.3.al8.x86_64] 非サポート範囲: [5.10.134-18.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
515.105.01 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-17.3.al8.x86_64] 非サポート範囲: [5.10.134-18.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
515.86.01 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-17.3.al8.x86_64] 非サポート範囲: [5.10.134-18.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
510.108.03 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-17.3.al8.x86_64] 非サポート範囲: [5.10.134-18.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
510.54 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
510.47.03 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
470.256.02 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, ∞) |
470.161.03 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-17.3.al8.x86_64] 非サポート範囲: [5.10.134-18.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
470.103.01 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
470.82.01 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
470.57.02 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
460.106.00 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | サポート範囲: [5.15.0-40-generic, 5.15.0-101-generic] 非サポート範囲: [5.15.0-106-generic, ∞) |
460.91.03 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
460.73.01 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
460.32.03 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
450.119.04 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
450.102.04 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | サポート範囲: [5.10.23-5.al8.x86_64, 5.10.134-14.al8.x86_64] 非サポート範囲: [5.10.134-15.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
450.80.02 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | 非サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
440.33.01 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | 非サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
418.181.07 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | 非サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
418.113 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | 非サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
418.87.01 | サポート範囲: [4.19.81-17.1.al7.x86_64, ∞) | 非サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
410.93 | サポート範囲: [4.19.81-17.1.al7.x86_64, 4.19.91-18.al7.x86_64] 非サポート範囲: [4.19.91-19.1.al7.x86_64, ∞) | 非サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, 3.10.0-957.21.3.el7.x86_64] 非サポート範囲: [3.10.0-1062.9.1.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
410.79 | サポート範囲: [4.19.81-17.1.al7.x86_64, 4.19.91-18.al7.x86_64] 非サポート範囲: [4.19.91-19.1.al7.x86_64, ∞) | 非サポート範囲: [5.10.23-5.al8.x86_64, ∞) | サポート範囲: [3.10.0-862.14.4.el7.x86_64, 3.10.0-957.21.3.el7.x86_64] 非サポート範囲: [3.10.0-1062.9.1.el7.x86_64, ∞) | 非サポート範囲: [5.15.0-40-generic, ∞) |
ドライバーと CUDA Toolkit の互換性
ご利用のアプリケーションで使用されている CUDA Toolkit バージョンに適した NVIDIA ドライバーバージョンを選択するには、CUDA Toolkit と NVIDIA ドライバーの互換性リストをご参照ください。詳細については、「cuda-toolkit-release-notes」をご参照ください。
Driver API バージョンの取得
ノードに NVIDIA ドライバーパッケージがインストールされている場合、nvidia-smi コマンドを実行して、ドライバーバージョンと CUDA Driver API バージョンを表示できます。次の例では、インストールされているドライバーバージョンは 550.144.03 で、Driver API バージョンは 12.6 です。これは、このドライバーが CUDA Runtime API バージョン 12.6 までをサポートしていることを示しています。
Mon Mar 24 08:51:55 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.144.03 Driver Version: 550.144.03 CUDA Version: 12.6 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 Tesla P4 On | 00000000:00:07.0 Off | 0 |
| N/A 33C P8 7W / 75W | 0MiB / 7680MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+Runtime API バージョンの取得
コンテナイメージに CUDA Toolkit をインストールする際は、NVIDIA の公式 CUDA ベースイメージを使用します。これらのベースイメージには CUDA Toolkit がプリインストールされています。これらのベースイメージに基づいてご利用のアプリケーションコンテナイメージを構築できます。また、必要な CUDA Toolkit バージョンに基づいて異なる CUDA ベースイメージを選択することもできます。
GPU 対応コンテナシナリオでは、ご利用のアプリケーションの CUDA Runtime API バージョンは、アプリケーションの Docker イメージに使用される CUDA ベースイメージのバージョンによって決定されます。例えば、ご利用のアプリケーションの Docker イメージが CUDA ベースイメージ nvidia/cuda:12.2.0-base-ubuntu20.04 から構築されている場合、アプリケーションは CUDA Runtime API バージョン 12.2.0 を使用します。