すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ack-ai-installer: はじめに、変更ログ

最終更新日:Mar 18, 2026

ack-ai-installer は、ACK マネージドクラスター プロ版 (ACK) および ACK エッジクラスター プロ版 (ACK) のスケジューリング機能を強化するデバイスプラグインのコレクションです。これは、Kubernetes スケジューリングフレームワーク拡張に基づく統合スケジューリングシステムである ACK Scheduler と連携して、ヘテロジニアスコンピューティングリソースの複雑なスケジューリングを実行します。これらのスケジューリングタスクには、共有 GPU スケジューリングと GPU トポロジー認識型スケジューリングが含まれます。このトピックでは、ack-ai-installer コンポーネントの基本情報、使用方法、および変更ログについて説明します。

コンポーネントの概要

ack-ai-installer は、ACK Scheduler と併用することで、共有分離による共有 GPU スケジューリングや GPU トポロジー認識型スケジューリングなどのスケジューリング機能を提供します。ack-ai-installer には現在、次のコンポーネントが含まれています。

gpushare-device-plugin と cgpu-installer

デフォルトでは、ACK マネージドクラスター プロ版 (ACK) および ACK エッジクラスター プロ版 (ACK) の ACK Scheduler は、排他的 GPU スケジューリングをサポートしています。ack-ai-installer の gpushare-device-plugin コンポーネントは、ACK Scheduler と連携して、共有 GPU スケジューリングと共有分離を有効にします。共有 GPU スケジューリングにより、複数のアプリケーションまたはプロセスが単一の GPU カードを共有して、システムリソースの使用率を向上させることができます。共有 GPU スケジューリングに加えて、ack-ai-installer の cgpu-installer コンポーネントは、Alibaba Cloud の GPU コンテナ共有テクノロジーである cGPU と統合されています。この統合により、GPU メモリ分離がサポートされ、GPU メモリ内の異なるアプリケーションまたはプロセスが互いに分離されます。これにより、タスク間の干渉が防止され、システム全体のパフォーマンスと効率が向上します。さらに、cgpu-installer コンポーネーントは GPU コンピューティング能力分離をサポートし、平均、プリエンプション、重みなどの異なる割り当てポリシーを提供します。これにより、GPU コンピューティングリソースのより詳細なスケジューリングと使用が可能になります。共有 GPU スケジューリングと分離のインストール方法やシナリオなどの詳細については、「共有 GPU スケジューリングコンポーネントの管理」および「共有 GPU スケジューリングを使用したコンピューティング能力の割り当て」をご参照ください。

gputopo-device-plugin

ack-ai-installer の gputopo-device-plugin コンポーネントは、ACK Scheduler と併用することで、GPU トポロジー認識型スケジューリングをサポートします。これにより、最適なトレーニング速度を提供するノード上の GPU の組み合わせが選択されます。GPU トポロジー認識型スケジューリングのインストール手順やシナリオなどの詳細については、「GPU トポロジー認識型スケジューリング」をご参照ください。

注意事項

  • ack-ai-installer コンポーネントは、コンソールの [クラウドネイティブ AI スイート] ページから、ACK マネージドクラスター プロ版 (ACK) および ACK エッジクラスター プロ版 (ACK) にのみインストールできます。このコンポーネントは、ACK Lingjun マネージドクラスターにはプリインストールされています。

  • ack-ai-installer コンポーネントのバージョンが 1.12.0 より前の場合は、クラスターバージョン 1.18.8 以降がサポートされます。

  • ack-ai-installer コンポーネントのバージョンが 1.12.0 以降の場合は、クラスターバージョン 1.20 以降のみがサポートされます。

変更ログ

2026年3月

バージョン

変更点

変更日時

影響

1.13.1

  • cGPU:

    • 6.x カーネルを搭載した Ubuntu 24.04 をサポートします。

    • マルチカード NVSwitch シナリオをサポートします。MPS Daemon を使用した cGPU コンテナのスケジューリングをサポートします。

    • マルチカードコンテナの GPU メモリ使用量が正しく表示されない問題を修正します。

    • ecs.gn8ga および ecs.ebmgn8ga インスタンスタイプをサポートします。

  • gpushare-device-plugin:

    • ノード NUMA トポロジーのレポートをサポートします。

    • MPS シナリオで指定された GPU メモリ値が不正確である問題を修正します。

    • MPS シナリオの作業ディレクトリを /var/run/nvidia-gpu/nvidia-mps に適応させます。

    • MPS シナリオで liveness プローブのタイムアウトによりデバイスプラグインが再起動する問題を修正します。

2026年3月16日

このアップグレードは既存のサービスには影響しません。

2025年10月

バージョン

変更点

変更日時

影響

1.13.0

  • gpushare-device-plugin:

    • kubelet から pending 状態の Pod をクエリして、API サーバーへの負荷を軽減することをサポートします。

2025年10月29日

このアップグレードは既存のサービスには影響しません。

2025年8月

バージョン

変更点

変更日時

影響

1.12.8

cGPU 1.5.20 の更新:

  • 同時 Pod 起動時に発生する稀な cGPU インスタンス ID の競合問題を修正します。

2025年8月4日

このアップグレードは既存のサービスには影響しません。

2025年7月

バージョン

変更点

変更日時

影響

1.12.7

  • cGPU がバージョン 1.5.19 に更新されます。

  • gpushare-device-plugin: 起動時に NVML 呼び出しが失敗した場合にリトライが失敗する問題を修正します。

2025年7月17日

このアップグレードは既存のサービスには影響しません。

1.12.6

cGPU 1.5.19 の更新:

  • Alibaba Cloud Linux 3 コンテナ最適化 OS イメージをサポートします。

  • タイムスライス (ポリシー 5) を使用したコンピューティング能力の割り当て変更をサポートします。

  • cgroup v2 でマルチカード Pod の作成に失敗する問題を修正します。

  • ebmgn9t はコンピューティング能力の割り当て (ポリシー 0-4) をサポートします。

2025年7月16日

このアップグレードは既存のサービスには影響しません。

2025年6月

バージョン

変更点

変更日時

影響

1.12.5

  • cGPU がバージョン 1.5.18 に更新されます。

  • 一部のシナリオで cGPU ノード上の最初の GPU Pod の起動に失敗する問題を修正します。

2025年6月23日

このアップグレードは既存のサービスには影響しません。

1.12.4

  • cGPU がバージョン 1.5.17 に更新され、vLLM 0.6.6 以前をサポートします。

  • cgpu-installer は CentOS 7 および Alibaba Cloud Linux 2 にインストールできます。

2025年6月19日

このアップグレードは既存のサービスには影響しません。

2025年5月

バージョン

変更点

変更日時

影響

1.12.3

  • cGPU がバージョン 1.5.16 に更新されます。

  • cgpu-installer にリトライ機能が追加されます。

2025年5月14日

このアップグレードは既存のサービスには影響しません。

2025年3月

バージョン

変更点

変更日時

影響

1.12.2

  • cGPU がバージョン 1.5.15 に更新されます。

  • cgpu-installer にノードアフィニティが追加され、Lingjun ノードにスケジュールされないようにします。

2025年3月17日

このアップグレードは既存のサービスには影響しません。

2025年2月

バージョン

変更点

変更日時

影響

1.12.1

  • cGPU がバージョン 1.5.15 に更新されます。

  • gpushare-device-plugin にノードリソースのヘルスチェック機能が追加されます。

2025年2月18日

このアップグレードは既存のサービスには影響しません。

2025年1月

バージョン

変更点

変更日時

影響

1.12.0

  • cGPU 1.5.15 をリリースし、cGPU のコンテナ化されたインストールをサポートします。

  • cgpu-installer コンテナの特権権限を削減します。

  • cGPU インストール前に事前チェックを追加します。事前チェックが失敗した場合、`CGPUInstallFailed` Kubernetes イベントがレポートされます。

  • このバージョン以降、ack-ai-installer コンポーネントはクラスターバージョン 1.20 以降のみをサポートします。

2025年1月3日

このアップグレードは既存のサービスには影響しません。

2024年11月

バージョン

変更点

変更日時

影響

1.11.1

cGPU 1.5.13 をリリースします。残留コンテナプロセスによって引き起こされる可能性のある稀なカーネルクラッシュの問題を修正します。

2024年11月19日

このアップグレードは既存のサービスには影響しません。

1.10.1

cGPU 1.5.12 をリリースします。535 などの新しいドライバーバージョンで一部の CUDA API の GPU メモリ分離が失敗する問題を修正します。

2024年11月7日

このアップグレードは既存のサービスには影響しません。

2024年9月

バージョン

変更点

変更日時

影響

1.9.16

  • cGPU がバージョン 1.5.11 に更新されます。

  • cGPU インストールプロセスを init コンテナに移動します。

2024年9月26日

このアップグレードは既存のサービスには影響しません。

1.9.15

cGPU 1.5.11 をリリースします。デコード関連の問題を修正します。

2024年9月19日

このアップグレードは既存のサービスには影響しません。

2024年8月

バージョン

変更点

変更日時

影響

1.9.14

  • MPS Daemon の使用に関連するいくつかの問題を修正します。

  • cGPU 1.5.10 をリリースします。コンピューティング能力と GPU メモリを比例的に分割するポリシー 6 を追加します。

2024年8月21日

このアップグレードは既存のサービスには影響しません。

1.9.14

cGPU 1.5.9 をリリースします。コンピューティング能力と GPU メモリを比例的に分割するポリシー 6 を追加します。

2024年8月13日

このアップグレードは既存のサービスには影響しません。

2024年5月

バージョン

変更点

変更日時

影響

1.9.11

cGPU 1.5.7 をリリースします。L シリーズ GPU およびバージョン 550 以降の GPU ドライバーをサポートします。

2024年5月14日

このアップグレードは既存のサービスには影響しません。

1.9.10

cGPU 1.5.7 をリリースします。cgpu policy set コマンドが無効である問題を修正します。

2024年5月9日

このアップグレードは既存のサービスには影響しません。

2024年1月

バージョン

変更点

変更日時

影響

1.8.8

cGPU 1.5.6 をリリースします。新しい cGPU ライセンスサーバーポリシーがリリースされます。

2024年1月4日

このアップグレードは既存のサービスには影響しません。

2023年12月

バージョン

変更点

変更日時

影響

1.8.7

  • cGPU がバージョン 1.5.5 に更新されます。

  • MPS の共有 GPU スケジューリングをサポートします。

2023年12月20日

このアップグレードは既存のサービスには影響しません。

2023年11月

バージョン

変更点

変更日時

影響

1.8.5

cGPU 1.5.5 をリリースします。cgpu-procfs によってトリガーされる Kernel Panic の問題を修正します。

2023年11月23日

このアップグレードは既存のサービスには影響しません。

2023年8月

バージョン

変更点

変更日時

影響

1.8.2

  • cGPU がバージョン 1.5.3 に更新されます。

  • 動的 Multi-Instance GPU (MIG) パーティション分割をサポートします。

  • device-plugin-recover が繰り返し再起動する問題を修正します。

2023年8月29日

このアップグレードは既存のサービスには影響しません。

2023年7月

バージョン

変更点

変更日時

影響

1.7.7

  • cGPU 1.5.3 をリリースします。

  • nvidia-container-toolkit および nvidia-container-runtime-hook のシンボリックリンクが不正確である問題を修正します。

  • 470.182.03、515.105.01、525.105.17 などの後続のドライバーバージョンとの非互換性の問題を修正します。

2023年7月4日

このアップグレードは既存のサービスには影響しません。

2023年4月

バージョン

変更点

変更日時

影響

1.7.6

  • cGPU 1.5.2 をリリースします。systemd cgroup 権限が不正確である問題を修正します。

  • cGPU で 5XX 以降のドライバーバージョンをサポートします。

  • cGPU で nvidia-container-runtime 1.10 以降をサポートします。

  • containerd での cGPU 1.5.1 サポートに関する問題を修正します。

2023年4月26日

このアップグレードは既存のサービスには影響しません。

1.7.5

cGPU 1.5.2 をリリースします。

2023年4月18日

このアップグレードは既存のサービスには影響しません。