ack-ai-installer は、ACK Managed Cluster Pro および ACK Edge Cluster Pro のスケジューリング機能を強化する Device Plugin のコレクションです。ACK Scheduler と連携して、共有 GPU スケジューリングや GPU トポロジー対応スケジューリングなど、異種計算リソースの複雑なスケジューリングを実行します。ACK Scheduler は、Kubernetes Scheduling Framework 拡張メカニズムに基づく統合スケジューリングシステムです。さまざまなワークロードとエラスティックリソース向けに設計されています。このトピックでは、ack-ai-installer コンポーネントの基本情報、使用上の注意、およびリリース履歴について説明します。
コンポーネントの概要
ack-ai-installer は ACK Scheduler と連携して、分離された共有 GPU スケジューリングや GPU トポロジー対応スケジューリングなどのスケジューリング機能を提供します。ack-ai-installer には現在、次のコンポーネントが含まれています。
gpushare-device-plugin と cgpu-installer
デフォルトでは、ACK Managed Cluster Pro および ACK Edge Cluster Pro の ACK Scheduler は、専用の GPU スケジューリングをサポートしています。ack-ai-installer (gpushare-device-plugin) は ACK Scheduler と連携して、共有 GPU スケジューリングと分離を有効にします。共有 GPU スケジューリングにより、複数のアプリケーションまたはプロセスが単一の GPU カードを共有できるようになり、システムリソースの利用率が向上します。 共有 GPU スケジューリングを基盤として、ack-ai-installer (cgpu-installer) は Alibaba Cloud の GPU コンテナー共有テクノロジーである cGPU とも統合され、GPU メモリの分離をサポートします。これにより、GPU メモリ内で異なるアプリケーションやプロセスが相互に分離され、タスク間の干渉が防止され、システム全体のパフォーマンスと効率が向上します。さらに、ack-ai-installer (cgpu-installer) は計算能力の分離をサポートし、平均、プリエンプション、重みなどのさまざまな割り当てポリシーを提供します。これにより、GPU 計算能力リソースのより詳細なスケジューリングと利用が可能になります。インストール方法やシナリオなど、共有 GPU スケジューリングと分離の詳細については、「共有 GPU スケジューリングコンポーネントの管理」および「共有 GPU スケジューリングを使用した計算能力の割り当て」をご参照ください。
gputopo-device-plugin
ACK Scheduler と連携して、ack-ai-installer (gputopo-device-plugin) は GPU トポロジー対応スケジューリングを有効にします。この機能は、最適なトレーニング速度を提供するノード上の GPU の組み合わせを選択します。インストールプロシージャやシナリオなど、GPU トポロジー対応スケジューリングの詳細については、「GPU トポロジー対応スケジューリング」をご参照ください。
使用上の注意
ack-ai-installer コンポーネントは、コンソールのクラウドネイティブ AI スイートページから ACK Managed Cluster Pro および ACK Edge Cluster Pro にのみインストールできます。このコンポーネントは、ACK Lingjun マネージドクラスターにプリインストール済みです。
ack-ai-installer コンポーネントのバージョンが 1.12.0 より前の場合、クラスターバージョン 1.18.8 以降がサポートされます。
ack-ai-installer コンポーネントのバージョンが 1.12.0 以降の場合、クラスターバージョン 1.20 以降のみがサポートされます。
リリースノート
2025 年 8 月
バージョン | 変更 | 変更時間 | 影響 |
1.12.8 | cGPU 1.5.20 の更新:
| 2025 年 8 月 4 日 | このアップグレードは既存のサービスに影響しません。 |
2025 年 7 月
バージョン | 変更 | リリース日 | 影響 |
1.12.7 |
| 2025 年 7 月 17 日 | このアップグレードは既存のサービスに影響しません。 |
1.12.6 | cGPU 1.5.19 の更新:
| 2025 年 7 月 16 日 | このアップグレードは既存のサービスに影響しません。 |
2025 年 6 月
バージョン | 変更 | 変更時間 | 影響 |
1.12.5 |
| 2025 年 6 月 23 日 | このアップグレードは既存のサービスに影響しません。 |
1.12.4 |
| 2025 年 6 月 19 日 | このアップグレードは既存のサービスに影響しません。 |
2025 年 5 月
バージョン | 変更 | 変更時間 | 影響 |
1.12.3 |
| 2025 年 5 月 14 日 | このアップグレードは既存のサービスに影響しません。 |
2025 年 3 月
バージョン | 変更 | 変更時間 | 影響 |
1.12.2 |
| 2025 年 3 月 17 日 | このアップグレードは既存のサービスに影響しません。 |
2025 年 2 月
バージョン | 変更 | リリース日 | 影響 |
1.12.1 |
| 2025 年 2 月 18 日 | このアップグレードは既存のサービスに影響しません。 |
2025 年 1 月
バージョン | 変更 | リリース日 | 影響 |
1.12.0 |
| 2025 年 1 月 3 日 | このアップグレードは既存のサービスに影響しません。 |
2024 年 11 月
バージョン | 変更 | 最終更新日 | 影響 |
1.11.1 | cGPU 1.5.13 をリリースしました。このバージョンでは、残存するコンテナープロセスによって引き起こされる可能性のあるまれなカーネルクラッシュの問題を修正しました。 | 2024 年 11 月 19 日 | このアップグレードは既存のサービスに影響しません。 |
1.10.1 | cGPU 1.5.12 をリリースしました。このバージョンでは、535 などの新しいドライバーバージョンで一部の CUDA API の GPU メモリ分離が失敗する問題を修正しました。 | 2024 年 11 月 7 日 | このアップグレードは既存のサービスに影響しません。 |
2024 年 9 月
バージョン | 変更 | 変更時間 | 影響 |
1.9.16 |
| 2024 年 9 月 26 日 | このアップグレードは既存のサービスに影響しません。 |
1.9.15 | cGPU 1.5.11 をリリースしました。このバージョンでは、デコード関連の問題を修正しました。 | 2024 年 9 月 19 日 | このアップグレードは既存のサービスに影響しません。 |
2024 年 8 月
バージョン | 変更 | 変更時間 | 影響 |
1.9.14 |
| 2024 年 8 月 21 日 | このアップグレードは既存のサービスに影響しません。 |
1.9.14 | cGPU 1.5.9 をリリースしました。このバージョンでは、計算能力と GPU メモリを比例分割するためのポリシー 6 を追加しました。 | 2024 年 8 月 13 日 | このアップグレードは既存のサービスに影響しません。 |
2024 年 5 月
バージョン | 変更 | 変更時間 | 影響 |
1.9.11 | cGPU 1.5.7 をリリースしました。このバージョンでは、L シリーズ GPU およびバージョン 550 以降の GPU ドライバーのサポートを追加しました。 | 2024 年 5 月 14 日 | このアップグレードは既存のサービスに影響しません。 |
1.9.10 | cGPU 1.5.7 をリリースしました。このバージョンでは、 | 2024 年 5 月 9 日 | このアップグレードは既存のサービスに影響しません。 |
2024 年 1 月
バージョン | 変更 | 最終更新日 | 影響 |
1.8.8 | cGPU 1.5.6 をリリースしました。このバージョンでは、新しい cGPU License Server ポリシーが導入されています。 | 2024 年 1 月 4 日 | このアップグレードは既存のサービスに影響しません。 |
2023 年 12 月
バージョン | 変更 | 最終更新日 | 影響 |
1.8.7 |
| 2023 年 12 月 20 日 | このアップグレードは既存のサービスに影響しません。 |
2023 年 11 月
バージョン | 変更 | 変更時間 | 影響 |
1.8.5 | cGPU 1.5.5 をリリースしました。このバージョンでは、 | 2023 年 11 月 23 日 | このアップグレードは既存のサービスに影響しません。 |
2023 年 8 月
バージョン | 変更 | 変更時間 | 影響 |
1.8.2 |
| 2023 年 8 月 29 日 | このアップグレードは既存のサービスに影響しません。 |
2023 年 7 月
バージョン | 変更 | 変更時間 | 影響 |
1.7.7 |
| 2023 年 7 月 4 日 | このアップグレードは既存のサービスに影響しません。 |
2023 年 4 月
バージョン | 変更 | 変更時間 | 影響 |
1.7.6 |
| 2023 年 4 月 26 日 | このアップグレードは既存のサービスに影響しません。 |
1.7.5 | cGPU 1.5.2 をリリースしました。 | 2023 年 4 月 18 日 | このアップグレードは既存のサービスに影響しません。 |