cGPU よくある質問 - Container Service for Kubernetes - Alibaba Cloud ドキュメントセンター

cGPU は、GPU メモリと計算能力の隔離を提供する Alibaba Cloud モジュールです。この機能により、複数のコンテナーが互いのリソースに干渉することなく、単一の GPU を共有できます。この Topic では、cGPU の使用に関する既知の問題と重要な情報について説明します。

開始する前に

クラスター内の GPU ノードにラベル ack.node.gpu.schedule=cgpu、ack.node.gpu.schedule=core_mem、または cgpu=true がある場合、そのノードで cGPU 隔離が有効になります。
ack-ai-installer と cGPU コンポーネント間のバージョンマッピングの詳細については、「ack-ai-installer コンポーネント」のリリースノートをご参照ください。
cGPU の詳細については、「NVIDIA 公式ドキュメント」をご参照ください。

cGPU バージョンの互換性

NVIDIA ドライバーの互換性

cGPU バージョン

互換性のある NVIDIA ドライバー

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

サポート対象:

460 シリーズ
470 シリーズ
510 シリーズ
515 シリーズ
525 シリーズ
535 シリーズ
550 シリーズ
560 シリーズ
565 シリーズ
570 シリーズ
575 シリーズ

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

サポート対象:

460 シリーズ
470 シリーズ <= 470.161.03
510 シリーズ <= 510.108.03
515 シリーズ <= 515.86.01
525 シリーズ <= 525.89.03

サポート対象外:

535 シリーズ
550 シリーズ
560 シリーズ
565 シリーズ
570 シリーズ
575 シリーズ

1.0.3

0.8.17

0.8.13

サポート対象:

460 シリーズ
470 シリーズ <= 470.161.03

サポート対象外:

510 シリーズ
515 シリーズ
525 シリーズ
535 シリーズ
550 シリーズ
560 シリーズ
565 シリーズ
570 シリーズ
575 シリーズ

インスタンスファミリーの互換性

cGPU バージョン

互換性のあるインスタンスファミリー

1.5.20

1.5.19

サポート対象:

gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e
gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e
gn8t / ebmgn8t
gn8is / gn8v / ebmgn8is / ebmgn8v
gn8ia / ebmgn8ia
ebmgn9t

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

サポート対象:

gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e
gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e
gn8t / ebmgn8t
gn8is / gn8v / ebmgn8is / ebmgn8v
gn8ia / ebmgn8ia

サポート対象外:

ebmgn9t

1.5.8

1.5.7

サポート対象:

gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e
gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e
gn8t / ebmgn8t
gn8is / gn8v / ebmgn8is / ebmgn8v

サポート対象外:

gn8ia / ebmgn8ia
ebmgn9t

1.5.6

1.5.5

サポート対象:

gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e
gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e
gn8t / ebmgn8t

サポート対象外:

gn8is / gn8v / ebmgn8is / ebmgn8v
gn8ia / ebmgn8ia
ebmgn9t

1.5.3

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

サポート対象:

gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e
gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

サポート対象外:

gn8t / ebmgn8t
gn8is / gn8v / ebmgn8is / ebmgn8v
gn8ia / ebmgn8ia
ebmgn9t

0.8.17

0.8.13

サポート対象:

gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

サポート対象外:

gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e
gn8t / ebmgn8t
gn8is / gn8v / ebmgn8is / ebmgn8v
gn8ia / ebmgn8ia
ebmgn9t

nvidia-container-toolkit の互換性

cGPU バージョン

互換性のある nvidia-container-toolkit

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

1.5.2

1.0.10

サポート対象:

nvidia-container-toolkit <= 1.10
nvidia-container-toolkit: 1.11 ~ 1.17

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

0.8.17

0.8.13

サポート対象:

nvidia-container-toolkit <= 1.10

サポート対象外:

nvidia-container-toolkit: 1.11 ~ 1.17

カーネルバージョンの互換性

cGPU バージョン

互換性のあるカーネルバージョン

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

サポート対象:

kernel 3.x
kernel 4.x
kernel 5.x <= 5.15

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

サポート対象:

kernel 3.x
kernel 4.x
kernel 5.x <= 5.10

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

サポート対象:

kernel 3.x
kernel 4.x
kernel 5.x <= 5.1

0.8.17

サポート対象:

kernel 3.x
kernel 4.x
kernel 5.x <= 5.0

0.8.13

0.8.12

0.8.10

サポート対象:

kernel 3.x
kernel 4.x

サポート対象外:

kernel 5.x

よくある質問

cGPU の使用時に Linux カーネルパニックが発生する

バックグラウンド: cGPU コンポーネントを使用すると、cGPU カーネルドライバーでデッドロックが発生します。これは、同時プロセスが互いにブロックし合い、Linux カーネルパニックにつながることを意味します。
原因: 1.5.7 以前の cGPU バージョンをインストールしたため、コンポーネントのバージョンが古くなっています。
ソリューション: 新しいサービスでのカーネルエラーを防ぐために、cGPU≥1.5.10 をインストールまたはスペックアップすることをお勧めします。スペックアップ方法の詳細については、「ノードの cGPU バージョンをスペックアップする」をご参照ください。

一部のシナリオで cGPU Pod の起動に失敗する

バックグラウンド: Alibaba Cloud コンテナー最適化 OS イメージを使用すると、cGPU ノード上の cGPU Pod の起動に失敗することがあります。エラーメッセージは次のとおりです。

"Error: failed to create containerd task: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running prestart hook #0: exit status 2, stdout: , stderr: Auto-detected mode as 'legacy': unknown"

原因: この問題は cGPU バージョン 1.5.18 以前 (cgpu≤1.5.18) で発生し、cGPU ノード上の最初の cGPU Pod の起動に失敗する可能性があります。
ソリューション: ack-ai-installer≥1.12.6 にスペックアップします。詳細については、「共有 GPU スケジューリングコンポーネントをスペックアップする」をご参照ください。

cGPU Pod の作成時に `modprobe: ERROR` エラーが発生する

バックグラウンド: cGPU Pod の作成時に modprobe: ERROR: could not insert 'cgpu_procfs': Operation not permitted または modprobe: ERROR: could not insert 'km': Operation not permitted エラーが発生します。

原因: 次のエラーメッセージが表示されます。

Error: failed to create containerd task: failed to create shim: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 2, stdout: , stderr: modprobe: ERROR: could not insert 'cgpu_procfs': Operation not permitted modprobe: ERROR: could not insert 'cgpu_procfs': Operation not permitted Auto-detected mode as 'legacy': unknown

modprobe: ERROR: could not insert 'km': Operation not permitted

ソリューション: このエラーは通常、オペレーティングシステムのバージョンが cGPU と互換性がないことを示します。この問題を解決するには、コンポーネントを最新バージョンにスペックアップしてください。詳細については、「共有 GPU スケジューリングコンポーネントをスペックアップする」をご参照ください。

cGPU Pod のコンテナーが作成に失敗するか、タイムアウトにより終了する

バックグラウンド: cGPU Pod のコンテナーが作成できないか、タイムアウトのために終了します。
原因: この問題は、cGPU コンポーネントバージョン 1.0.10 以前 (cGPU≤1.0.10) と NVIDIA Toolkit バージョン 1.11 以降 (NVIDIA Toolkit≥1.11) の間の非互換性が原因で発生します。
ソリューション: この問題を解決するには、コンポーネントを最新バージョンにスペックアップしてください。詳細については、「共有 GPU スケジューリングコンポーネントをスペックアップする」をご参照ください。

cGPU Pod の作成時に `Error occurs when creating cGPU instance: unknown` エラーが発生する

バックグラウンド: パフォーマンス上の理由から、cGPU を使用する場合、単一の GPU 上に最大 20 個の Pod を作成できます。
原因: 作成された Pod の数がこの制限を超えると、GPU にスケジュールされた後続の Pod は実行できません。エラーメッセージ Error occurs when creating cGPU instance: unknown が表示されます。
ソリューション: cGPU を使用する場合、単一の GPU 上に作成される Pod の数が 20 以下であることを確認してください。

cGPU Pod で `nvidia-smi` コマンドを実行すると `Failed to initialize NVML` エラーが発生する

バックグラウンド: 共有 GPU スケジューリングリソースを使用する実行中の Pod で nvidia-smi コマンドを実行すると、次の出力が表示されます。
```
Failed to initialize NVML: GPU access blocked by operating system
```
原因: この問題は、cGPU バージョン 1.5.2 以前と 2023 年 7 月以降にリリースされた GPU ドライバーバージョンとの間の非互換性が原因で発生します。GPU ドライバーのリリース日に関する詳細については、「GPU ドライバーのリリース日」をご参照ください。さまざまな ACK クラスターバージョンと互換性のあるデフォルトの GPU ドライバーバージョンのリストについては、「ACK でサポートされている NVIDIA ドライバーのバージョンのリスト」をご参照ください。
ソリューション: この問題を解決するには、コンポーネントを最新バージョンにスペックアップしてください。詳細については、「共有 GPU スケジューリングコンポーネントをスペックアップする」をご参照ください。

開始する前に

cGPU バージョンの互換性

NVIDIA ドライバーの互換性

インスタンスファミリーの互換性

nvidia-container-toolkit の互換性

カーネルバージョンの互換性

よくある質問

cGPU の使用時に Linux カーネルパニックが発生する

一部のシナリオで cGPU Pod の起動に失敗する

cGPU Pod の作成時に modprobe: ERROR エラーが発生する

cGPU Pod のコンテナーが作成に失敗するか、タイムアウトにより終了する

cGPU Pod の作成時に Error occurs when creating cGPU instance: unknown エラーが発生する

cGPU Pod で nvidia-smi コマンドを実行すると Failed to initialize NVML エラーが発生する

cGPU Pod の作成時に `modprobe: ERROR` エラーが発生する

cGPU Pod の作成時に `Error occurs when creating cGPU instance: unknown` エラーが発生する

cGPU Pod で `nvidia-smi` コマンドを実行すると `Failed to initialize NVML` エラーが発生する