すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ack-ai-installer コンポーネントの概要とリリースノート

最終更新日:Nov 09, 2025

ack-ai-installer は、ACK Managed Cluster Pro および ACK Edge Cluster Pro のスケジューリング機能を強化する Device Plugin のコレクションです。ACK Scheduler と連携して、共有 GPU スケジューリングや GPU トポロジー対応スケジューリングなど、異種計算リソースの複雑なスケジューリングを実行します。ACK Scheduler は、Kubernetes Scheduling Framework 拡張メカニズムに基づく統合スケジューリングシステムです。さまざまなワークロードとエラスティックリソース向けに設計されています。このトピックでは、ack-ai-installer コンポーネントの基本情報、使用上の注意、およびリリース履歴について説明します。

コンポーネントの概要

ack-ai-installer は ACK Scheduler と連携して、分離された共有 GPU スケジューリングや GPU トポロジー対応スケジューリングなどのスケジューリング機能を提供します。ack-ai-installer には現在、次のコンポーネントが含まれています。

gpushare-device-plugin と cgpu-installer

デフォルトでは、ACK Managed Cluster Pro および ACK Edge Cluster Pro の ACK Scheduler は、専用の GPU スケジューリングをサポートしています。ack-ai-installer (gpushare-device-plugin) は ACK Scheduler と連携して、共有 GPU スケジューリングと分離を有効にします。共有 GPU スケジューリングにより、複数のアプリケーションまたはプロセスが単一の GPU カードを共有できるようになり、システムリソースの利用率が向上します。 共有 GPU スケジューリングを基盤として、ack-ai-installer (cgpu-installer) は Alibaba Cloud の GPU コンテナー共有テクノロジーである cGPU とも統合され、GPU メモリの分離をサポートします。これにより、GPU メモリ内で異なるアプリケーションやプロセスが相互に分離され、タスク間の干渉が防止され、システム全体のパフォーマンスと効率が向上します。さらに、ack-ai-installer (cgpu-installer) は計算能力の分離をサポートし、平均、プリエンプション、重みなどのさまざまな割り当てポリシーを提供します。これにより、GPU 計算能力リソースのより詳細なスケジューリングと利用が可能になります。インストール方法やシナリオなど、共有 GPU スケジューリングと分離の詳細については、「共有 GPU スケジューリングコンポーネントの管理」および「共有 GPU スケジューリングを使用した計算能力の割り当て」をご参照ください。

gputopo-device-plugin

ACK Scheduler と連携して、ack-ai-installer (gputopo-device-plugin) は GPU トポロジー対応スケジューリングを有効にします。この機能は、最適なトレーニング速度を提供するノード上の GPU の組み合わせを選択します。インストールプロシージャやシナリオなど、GPU トポロジー対応スケジューリングの詳細については、「GPU トポロジー対応スケジューリング」をご参照ください。

使用上の注意

  • ack-ai-installer コンポーネントは、コンソールのクラウドネイティブ AI スイートページから ACK Managed Cluster Pro および ACK Edge Cluster Pro にのみインストールできます。このコンポーネントは、ACK Lingjun マネージドクラスターにプリインストール済みです。

  • ack-ai-installer コンポーネントのバージョンが 1.12.0 より前の場合、クラスターバージョン 1.18.8 以降がサポートされます。

  • ack-ai-installer コンポーネントのバージョンが 1.12.0 以降の場合、クラスターバージョン 1.20 以降のみがサポートされます。

リリースノート

2025 年 8 月

バージョン

変更

変更時間

影響

1.12.8

cGPU 1.5.20 の更新:

  • 同時 Pod 作成中に発生したまれな cGPU インスタンス ID の競合問題を修正しました。

2025 年 8 月 4 日

このアップグレードは既存のサービスに影響しません。

2025 年 7 月

バージョン

変更

リリース日

影響

1.12.7

  • cGPU を 1.5.19 にアップグレードしました。

  • gpushare-device-plugin: 起動中に NVML 呼び出しが失敗した後、プラグインがリトライできない問題を修正しました。

2025 年 7 月 17 日

このアップグレードは既存のサービスに影響しません。

1.12.6

cGPU 1.5.19 の更新:

  • Alibaba Cloud Linux 3 コンテナー最適化 OS イメージのサポートを追加しました。

  • タイムスライシング (ポリシー 5) を使用した計算能力割り当ての変更のサポートを追加しました。

  • cgroup v2 環境でマルチ GPU Pod の作成が失敗する問題を修正しました。

  • ebmgn9t の計算能力割り当て (ポリシー 0-4) のサポートを追加しました。

2025 年 7 月 16 日

このアップグレードは既存のサービスに影響しません。

2025 年 6 月

バージョン

変更

変更時間

影響

1.12.5

  • cGPU を 1.5.18 にアップグレードしました。

  • 一部のシナリオで cGPU ノード上の最初の GPU Pod が起動に失敗する問題を修正しました。

2025 年 6 月 23 日

このアップグレードは既存のサービスに影響しません。

1.12.4

  • cGPU を 1.5.17 にアップグレードしました。vLLM 0.6.6 以前をサポートします。

  • cgpu-installer: CentOS 7 および Alibaba Cloud Linux 2 へのインストールのサポートを追加しました。

2025 年 6 月 19 日

このアップグレードは既存のサービスに影響しません。

2025 年 5 月

バージョン

変更

変更時間

影響

1.12.3

  • cGPU を 1.5.16 にアップグレードしました。

  • cgpu-installer: インストールリトライ機能を追加しました。

2025 年 5 月 14 日

このアップグレードは既存のサービスに影響しません。

2025 年 3 月

バージョン

変更

変更時間

影響

1.12.2

  • cGPU を 1.5.15 にアップグレードしました。

  • cgpu-installer: Lingjun ノードへのスケジューリングを防ぐためのノードアフィニティを追加しました。

2025 年 3 月 17 日

このアップグレードは既存のサービスに影響しません。

2025 年 2 月

バージョン

変更

リリース日

影響

1.12.1

  • cGPU を 1.5.15 にアップグレードしました。

  • gpushare-device-plugin: ノードリソースのヘルスチェック機能を追加しました。

2025 年 2 月 18 日

このアップグレードは既存のサービスに影響しません。

2025 年 1 月

バージョン

変更

リリース日

影響

1.12.0

  • cGPU 1.5.15 をリリースしました。cGPU のコンテナー化されたインストールをサポートします。

  • cgpu-installer コンテナーの特権を制限しました。

  • cGPU インストール前の事前チェックを追加しました。事前チェックが失敗した場合、`CGPUInstallFailed` Kubernetes イベントがレポートされます。

  • このバージョンから、ack-ai-installer コンポーネントはクラスターバージョン 1.20 以降のみをサポートします。

2025 年 1 月 3 日

このアップグレードは既存のサービスに影響しません。

2024 年 11 月

バージョン

変更

最終更新日

影響

1.11.1

cGPU 1.5.13 をリリースしました。このバージョンでは、残存するコンテナープロセスによって引き起こされる可能性のあるまれなカーネルクラッシュの問題を修正しました。

2024 年 11 月 19 日

このアップグレードは既存のサービスに影響しません。

1.10.1

cGPU 1.5.12 をリリースしました。このバージョンでは、535 などの新しいドライバーバージョンで一部の CUDA API の GPU メモリ分離が失敗する問題を修正しました。

2024 年 11 月 7 日

このアップグレードは既存のサービスに影響しません。

2024 年 9 月

バージョン

変更

変更時間

影響

1.9.16

  • cGPU を 1.5.11 にアップグレードしました。

  • cGPU インストールプロセスを init コンテナーに移動しました。

2024 年 9 月 26 日

このアップグレードは既存のサービスに影響しません。

1.9.15

cGPU 1.5.11 をリリースしました。このバージョンでは、デコード関連の問題を修正しました。

2024 年 9 月 19 日

このアップグレードは既存のサービスに影響しません。

2024 年 8 月

バージョン

変更

変更時間

影響

1.9.14

  • MPS Daemon の使用に関連するいくつかの問題を修正しました。

  • cGPU 1.5.10 をリリースしました。このバージョンでは、計算能力と GPU メモリを比例分割するためのポリシー 6 を追加しました。

2024 年 8 月 21 日

このアップグレードは既存のサービスに影響しません。

1.9.14

cGPU 1.5.9 をリリースしました。このバージョンでは、計算能力と GPU メモリを比例分割するためのポリシー 6 を追加しました。

2024 年 8 月 13 日

このアップグレードは既存のサービスに影響しません。

2024 年 5 月

バージョン

変更

変更時間

影響

1.9.11

cGPU 1.5.7 をリリースしました。このバージョンでは、L シリーズ GPU およびバージョン 550 以降の GPU ドライバーのサポートを追加しました。

2024 年 5 月 14 日

このアップグレードは既存のサービスに影響しません。

1.9.10

cGPU 1.5.7 をリリースしました。このバージョンでは、cgpu policy set が無効である問題を修正しました。

2024 年 5 月 9 日

このアップグレードは既存のサービスに影響しません。

2024 年 1 月

バージョン

変更

最終更新日

影響

1.8.8

cGPU 1.5.6 をリリースしました。このバージョンでは、新しい cGPU License Server ポリシーが導入されています。

2024 年 1 月 4 日

このアップグレードは既存のサービスに影響しません。

2023 年 12 月

バージョン

変更

最終更新日

影響

1.8.7

  • cGPU を 1.5.5 にアップグレードしました。

  • MPS を使用した共有 GPU スケジューリングのサポートを追加しました。

2023 年 12 月 20 日

このアップグレードは既存のサービスに影響しません。

2023 年 11 月

バージョン

変更

変更時間

影響

1.8.5

cGPU 1.5.5 をリリースしました。このバージョンでは、cgpu-procfs によってトリガーされるカーネルパニックの問題を修正しました。

2023 年 11 月 23 日

このアップグレードは既存のサービスに影響しません。

2023 年 8 月

バージョン

変更

変更時間

影響

1.8.2

  • cGPU を 1.5.3 にアップグレードしました。

  • 動的マルチインスタンス GPU (MIG) パーティショニングのサポートを追加しました。

  • device-plugin-recover が繰り返し再起動する問題を修正しました。

2023 年 8 月 29 日

このアップグレードは既存のサービスに影響しません。

2023 年 7 月

バージョン

変更

変更時間

影響

1.7.7

  • cGPU 1.5.3 をリリースしました。

  • nvidia-container-toolkit および nvidia-container-runtime-hook の不正なシンボリックリンクの問題を修正しました。

  • 以降のドライバーバージョン (470.182.03、515.105.01、525.105.17 以降) との互換性の問題を修正しました。

2023 年 7 月 4 日

このアップグレードは既存のサービスに影響しません。

2023 年 4 月

バージョン

変更

変更時間

影響

1.7.6

  • cGPU 1.5.2 をリリースしました。このバージョンでは、systemd cgroup の権限が正しくない問題を修正しました。

  • ドライバーバージョン 5xx 以降の cGPU の互換性の問題を解決しました。

  • nvidia-container-runtime バージョン 1.10 以降の cGPU のサポート問題を解決しました。

  • containerd 上の cGPU 1.5.1 のサポート問題を修正しました。

2023 年 4 月 26 日

このアップグレードは既存のサービスに影響しません。

1.7.5

cGPU 1.5.2 をリリースしました。

2023 年 4 月 18 日

このアップグレードは既存のサービスに影響しません。