すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:2025 年の ACK リリースノート

最終更新日:Dec 08, 2025

このトピックでは、Container Service for Kubernetes (ACK) の最新のリリースノートについて説明します。

背景情報

  • Container Service for Kubernetes (ACK) がサポートする Kubernetes のバージョンについては、「バージョンガイド」をご参照ください。

  • Container Service for Kubernetes (ACK) は、ContainerOS、Alibaba Cloud Linux 3 Container Optimized Edition、Alibaba Cloud Linux 3、Alibaba Cloud Linux 3 for Arm、Alibaba Cloud Linux UEFI 3、Red Hat、Ubuntu、Windows などのオペレーティングシステムをサポートしています。詳細については、「オペレーティングシステム」をご参照ください。

2025 年 10 月

プロダクト

特徴

説明

リージョン

リファレンス

DRA を使用した GPU のスケジューリングをサポート

複数のアプリケーションが GPU リソースを共有する必要がある AI トレーニングおよび推論シナリオでは、ACK クラスターに NVIDIA Dynamic Resource Allocation (DRA) ドライバーをデプロイして、従来のデバイスプラグインのスケジューリング制限を克服できます。Kubernetes DRA API を使用すると、Pod 間での動的な GPU 割り当てと詳細なリソース制御が可能になり、GPU 使用率が向上し、コストが削減されます。

すべて

DRA を使用して GPU をスケジュールする

Distributed Cloud Container Platform for Kubernetes (ACK One)

登録済みクラスターが ACS GPU-HPN キャパシティ予約をサポート

オンプレミスの Kubernetes クラスターをクラウドに登録し、GPU High-Performance Network (GPU-HPN) キャパシティ予約メカニズムを使用することで、オンプレミスとクラウドの GPU リソースを統一的に管理し、インテリジェントにスケジューリングできます。これにより、AI トレーニングや推論などの主要なワークロードに、安定した高性能なコンピューティングを提供します。

すべて

ACK One 登録済みクラスターで ACS GPU HPN 計算能力を使用する例

自己管理 Prometheus を使用したコントロールプレーンコンポーネントのメトリック収集をサポート

自己管理 Prometheus モニタリングシステムを使用するハイブリッドクラウド環境では、Metrics Aggregator コンポーネントをインストールし、ServiceMonitor を構成して、ACK One 登録済みクラスターのコントロールプレーンのヘルスステータスを一元管理できます。これにより、コアコンポーネントのメトリックを既存のモニタリングシステムに統合し、統一されたアラートと可観測性を実現します。

すべて

自己管理 Prometheus を使用してコントロールプレーンコンポーネントのメトリックを収集する

Cloud Native AI Suite

Arena を使用して eRDMA で高速化された PyTorch 分散トレーニングジョブの送信をサポート

マルチノード GPU トレーニングで、ネットワーク通信のレイテンシーが全体のパフォーマンスを低下させる場合、Arena を使用して PyTorch 分散ジョブを送信し、elastic Remote Direct Memory Access (eRDMA) ネットワークアクセラレーションを構成できます。これにより、ノード間の低レイテンシー、高スループットの通信が可能になり、モデルのトレーニングサイクルが短縮され、トレーニング効率とクラスター使用率が向上します。

すべて

Arena を使用して eRDMA で高速化された PyTorch 分散トレーニングジョブを送信する

2025 年 9 月

プロダクト

特徴

説明

リージョン

リファレンス

Container Service for Kubernetes

Kubernetes 1.34 のサポート

ACK は Kubernetes 1.34 をサポートするようになりました。Kubernetes 1.34 を実行するクラスターを作成したり、既存のクラスターを Kubernetes 1.34 にアップグレードしたりできます。

すべて

Kubernetes 1.34

ハイブリッドクラウドノードプールのサポート

ACK クラスター内のオンプレミスサーバーリソースを管理するために、ACK Pro マネージドクラスターにハイブリッドクラウドノードプールを作成して、クラウドとオンプレミスの両方のリソースの弾力的なスケジューリングとコスト最適化を実現できます。既存のハイブリッドクラウドノードをクラスターに追加して、現在の IT 資産を活用しながら統一されたオーケストレーションを維持します。

すべて

ハイブリッドクラウドノードプールの作成と管理

ハイブリッドクラウドノードプールの DNS 名前解決の構成をサポート

ハイブリッドクラウドノードプールがクラウド上の CoreDNS をドメイン名解決に使用する場合、頻繁なアクセスは専用回線の負荷を増大させ、不安定な接続による解決失敗を引き起こす可能性があります。NodeLocal DNSCache を構成してこれらの問題を軽減できます。

すべて

ハイブリッドクラウドノードプールに NodeLocal DNSCache を構成する

Terway Hybrid ネットワークプラグインのサポート

ハイブリッドクラウドノードプールがオンプレミスのデータセンターに接続されている場合、その複雑なネットワークトポロジーとクロスドメインのルーティング要件は、通常のコンテナーネットワークプラグインの能力を超えます。Terway Hybrid ネットワークプラグインは、ハイブリッドクラウドノードプール向けに設計されており、データセンター内であろうとクラウド上であろうと、クラスター内の Pod 間のネットワーク接続を保証します。

すべて

Terway Hybrid ネットワークプラグインを使用する

ossfs 2.0 が RRSA 認証をサポート

永続ストレージや複数の Pod 間でのデータ共有を必要とするアプリケーションでは、動的にプロビジョニングされた PV を使用して OSS バケットを ossfs 2.0 ボリュームとしてマウントできます。認証には RAM Roles for Service Accounts (RRSA) の使用を推奨します。RRSA は、自動的にローテーションされる一時的な認証情報により高いレベルのセキュリティを提供し、Pod レベルの権限分離をサポートするため、本番環境、マルチテナンシー、その他の高セキュリティ環境に適しています。

すべて

動的にプロビジョニングされた ossfs 2.0 ボリュームを使用する

Distributed Cloud Container Platform for Kubernetes (ACK One)

クラウド GPU 計算能力へのアクセスをサポート

ACK One 登録済みクラスターは、さまざまな異種コンピューティングリソースの統一されたスケジューリングと O&M をサポートします。これにより、異種コンピューティングを使用する Kubernetes クラスターのリソース使用率が大幅に向上します。

すべて

クラウド GPU 計算能力にアクセスする

単一クラスターアプリケーションをフリートに移行し、複数のクラスターに配布することをサポート

マルチクラスターアプリケーションのデプロイにおける反復的な操作、エラー、同期の困難などの問題を解決するために、AMC コマンドラインインターフェイス (CLI) を使用して、アプリケーションを複数のクラスターに迅速にデプロイできます。これにより、後続の更新の統一管理と自動同期も可能になります。

すべて

単一クラスターアプリケーションをフリートに移行し、複数のクラスターに配布する

2025 年 8 月

プロダクト

特徴

説明

リージョン

リファレンス

Container Service for Kubernetes

スマート推論ルーティングを使用した KV Cache 対応の負荷分散をサポート

KV Cache 対応の負荷分散は、生成 AI 推論シナリオ向けに設計されています。リクエストを最適な計算ノードに動的に割り当て、大規模言語モデル (LLM) サービスの効率を大幅に向上させます。

すべて

プレフィックスキャッシュ対応ルーティングを精密モードで使用する

カスタム CNI プラグインのサポート

ACK が提供するデフォルトの Terway および Flannel Container Network Interface (CNI) プラグインは、ほとんどのコンテナーネットワーク要件を満たします。ただし、一部のシナリオでは、他の CNI プラグインの特定の機能を使用するために、ACK では Bring Your Own CNI (BYOCNI) モードを使用してクラスターにカスタム CNI プラグインをインストールできます。

すべて

ACK クラスターでカスタム CNI プラグインを使用する

インテリジェントホスティングモードのクラスターがマネージドポリシーガバナンスコンポーネントをサポート

クラスターのコンプライアンス要件を満たし、クラスターのセキュリティを強化するには、セキュリティポリシー管理機能を有効にします。セキュリティポリシールールには、Infra、Compliance、Pod Security Policy (PSP)、および K8s-general が含まれます。

すべて

セキュリティポリシー管理を有効にする

Knative が ACS 計算能力をサポート

Knative サービスは、Container Compute Service (ACS) の計算能力を使用するように構成できます。ACS の多様なコンピューティングタイプと品質は、さまざまなビジネスシナリオのワークロード要求を満たし、コストを最適化するのに役立ちます。

すべて

ACS リソースを使用する

Gateway with Inference Extension がより柔軟な構成をサポート

  • カスタム推論拡張構成のサポート: アノテーションを構成してルーティングポリシーを調整したり、ConfigMap を作成して拡張機能のデプロイメント構成を変更および上書きしたりできます。

  • カスタムゲートウェイ構成のサポート: EnvoyProxy リソース構成を変更することで、サービスタイプ、デプロイメントレプリカ数、リソースなどの実際のゲートウェイパラメーターを調整できます。

すべて

ACK 機密コンピューティングクラスターでの vLLM 推論サービスの安全なデプロイをサポート

大規模言語モデル (LLM) の推論には、機密データとコアモデル資産が含まれており、信頼できない環境で実行すると漏洩のリスクがあります。ACK Confidential AI (ACK-CAI) ソリューションは、Intel Trust Domain Extensions (TDX) や GPU Trusted Execution Environments (TEE) などのハードウェアベースの機密コンピューティング技術を統合し、モデル推論のエンドツーエンドのセキュリティを提供します。

すべて

ACK 機密コンピューティングクラスターで vLLM 推論サービスを安全にデプロイする

Cloud Native AI Suite

AI Inference Suite がリリース

大規模言語モデル (LLM) の普及に伴い、本番環境で効率的、安定的、かつスケーラブルにデプロイおよび管理することが、企業にとって中心的な課題となっています。Alibaba Cloud Container Service for Kubernetes 上に構築された Cloud Native AI Inference Suite (AI Serving Stack) は、クラウドネイティブ AI 推論向けに設計されたエンドツーエンドのソリューションです。このスイートは、LLM 推論のライフサイクル全体に対応し、デプロイ管理、スマートルーティング、弾力的なスケーリング、詳細な可観測性のための統合機能を提供します。AI 運用の初心者でも、すでに大規模な AI 運用を行っている場合でも、Cloud Native AI Inference Suite は複雑なクラウドネイティブ AI 推論シナリオに対応できます。

すべて

AI Inference Suite

2025 年 7 月

プロダクト

特徴

説明

リージョン

リファレンス

Container Service for Kubernetes

強制モードでのみ ECS インスタンスメタデータへのアクセスをサポート

Instance Metadata Service (IMDS) を使用して、ECS インスタンス内からインスタンス ID、VPC 情報、ネットワークインターフェイスカード情報などの ECS メタデータを取得できます。ACK クラスターでは、ノードインスタンスメタデータのデフォルトのアクセスモードは、通常モードと強制モードの両方と互換性があります。強制モードのみ (IMDSv2) に切り替えることで、IMDS のセキュリティをさらに強化できます。

すべて

強制モードでのみ ECS インスタンスメタデータにアクセスする

海外ソースからのイメージのサブスクリプションをサポート

Docker Hub、Google Container Registry (GCR)、Quay などの海外のイメージリポジトリから Enterprise Edition インスタンスに定期的にイメージを同期するには、Enterprise Edition インスタンスのアーティファクトサブスクリプション機能を使用できます。

すべて

アーティファクトサブスクリプションを通じて海外ソースからイメージを取得する

CNFS を介して EFC クライアントを使用して NAS ファイルシステムのマウントをサポート

Extreme File Client (EFC) は、分散キャッシングなどの機能を提供して、File Storage NAS のアクセスパフォーマンスを向上させます。また、大規模データセットへの高並行性および並列アクセスもサポートしており、ビッグデータ分析、AI トレーニング、AI 推論などのデータ集約型および高並行性のコンテナー化アプリケーションシナリオに適しています。デフォルトの NFS プロトコルを使用して NAS をマウントするのと比較して、EFC を使用して NAS をマウントすると、ファイルアクセスが高速化され、読み取りおよび書き込みパフォーマンスが向上します。

すべて

CNFS を介して EFC クライアントを使用して NAS ファイルシステムをマウントする

Distributed Cloud Container Platform for Kubernetes (ACK One)

コンソールベースの GitOps エクスペリエンスをサポート

コンソールを使用して、GitOps の全機能を管理できます。これには、機能の有効化または無効化、パブリックネットワークアクセスの有効化とアクセス制御リスト (ACL) の構成、ApplicationSet UI の使用、Argo CD ConfigMap の構成とコンポーネントの再起動、モニタリングとロギングの可観測性機能の使用が含まれます。

すべて

GitOps のクイックスタート

マルチクラスター GitOps が Argo CD ConfigMap 構成をサポート

ACK One では、Argo CD ConfigMap を構成することで、GitOps 関連の機能と権限を管理できます。

すべて

Argo CD ConfigMap を構成する

マルチクラスターフリートのインベントリ対応弾力スケジューリングの有効化をサポート

マルチリージョンアプリケーションのデプロイでは、ACK One マルチクラスターフリートは、インベントリ対応のスマートスケジューラを使用してリソース割り当てを管理します。このスケジューラは、インスタント弾力性と連携して動作します。フリートのクラスターにリソースが不足している場合、アプリケーションサービスは利用可能なインベントリを持つクラスターにスケジュールされます。その後、インスタント弾力性機能がそれらのクラスターで必要なノードをスケールアウトしてサービスを収容します。このアプローチにより、スケジューリングの成功率が向上し、リソースコストが削減されます。

すべて

マルチクラスターフリートのインベントリ対応弾力スケジューリングを有効にする

Container Service for Edge (ACK Edge)

専用回線アクセス用の PrivateLink の構成をサポート

ACK Edge クラスターは、専用回線経由のネットワークアクセスをサポートします。これにより、ACK Edge クラスター内のエッジノードは、ACK や Container Registry (ACR) などの Alibaba Cloud サービスに安全かつ効率的にアクセスでき、ネットワークの競合や固定 IP アドレスの欠如などの問題を解決します。

すべて

専用回線アクセス用に PrivateLink を構成する

2025 年 6 月

プロダクト

特徴

説明

リージョン

リファレンス

Container Service for Kubernetes

コンソールで AI Profiling を使用する

AI Profiling は、extended Berkeley Packet Filter (eBPF) と動的プロセスインジェクションに基づく非侵入型のパフォーマンス分析ツールです。Kubernetes コンテナーシナリオ向けにネイティブに設計されており、GPU ジョブを実行するコンテナープロセスのオンライン検出をサポートします。包括的なデータ収集機能を提供し、実行中の GPU ジョブのパフォーマンスデータ収集を動的に開始および停止できます。オンラインサービスでは、この動的にアタッチおよびデタッチ可能なプロファイリングツールにより、サービスコードを変更することなく、リアルタイムで詳細な分析が可能になります。

すべて

AI Profiling

GPU ノードの自動修復

ノードの自動修復機能は、GPU のソフトウェアおよびハードウェアの異常によって引き起こされるインスタンス障害の自動修復をサポートするようになりました。

ACK は、GPU のソフトウェアおよびハードウェアの異常によって引き起こされる、基盤となる Elastic GPU Service (EGS) ノードおよび Lingjun ノード上のインスタンス障害に対して、Kubernetes 側の自動修復を提供します。障害検出、アラート、自動隔離からノードのドレイン、自動修復までの全プロセスにわたる自動化された O&M 機能を提供します。また、ユーザーの承認後にのみ修復を実行することもサポートしており、自動化された障害 O&M 機能をさらに強化し、クラスターの O&M コストを削減します。

すべて

ノードの自動修復を有効にする

CPFS for Lingjun の静的プロビジョニングボリューム

CPFS for Lingjun は、超高スループットと IOPS を提供し、エンドツーエンドの RDMA ネットワークアクセラレーションをサポートします。AIGC や自動運転などのインテリジェントコンピューティングシナリオに適しています。クラスターに CPFS for Lingjun の静的プロビジョニングボリュームを作成し、ワークロードで使用できます。

すべて

静的プロビジョニングボリュームで CPFS for Lingjun を使用する

ACK VPD CNI コンポーネント

ACK VPD CNI コンポーネントは、ACK Pro マネージドクラスター内の Lingjun ノードのコンテナーネットワーク管理を提供します。Lingjun ノードの CNI プラグインとして、ACK VPD CNI は Lingjun Connect を使用する Lingjun ノードのコンテナーネットワークリソースを割り当て、管理します。

すべて

ACK VPD CNI

ack-kms-agent-webhook-injector コンポーネント

ack-kms-agent-webhook-injector は、Key Management Service (KMS) Agent をサイドカーコンテナーとして Pod に注入します。これにより、アプリケーション Pod はローカル HTTP インターフェイスを使用して KMS インスタンスから KMS Agent を介して認証情報を取得し、メモリにキャッシュできます。これにより、機密情報のハードコーディングを回避し、データセキュリティを強化します。

すべて

アプリケーションに Alibaba Cloud KMS 認証情報をインポートする

Gateway with Inference Extension コンポーネントの機能拡張

Gateway with Inference Extension は、vLLM や SGLang など、複数の生成 AI 推論サービスフレームワークをサポートします。さまざまなフレームワークに基づいてデプロイされた生成 AI 推論サービスに強化された機能を提供します。これらの機能には、段階的リリース ポリシーの作成、推論負荷分散、モデル名ベースのルーティングのサポートが含まれます。また、推論サービスのレート制限およびサーキットブレーキングポリシーを構成することもできます。

すべて

Gateway with Inference Extension の概要

機密 VM に基づいて CAA 機密コンテナーソリューションを実装する

金融リスク管理やヘルスケアなど、機密コンピューティングを必要とするシナリオでは、Cloud API Adaptor (CAA) ソリューションを使用して ACK クラスターに機密コンピューティングワークロードをデプロイできます。このソリューションは、Intel® TDX テクノロジーを使用して、外部からの攻撃やクラウドプロバイダーからの潜在的な脅威から機密データを保護し、業界のコンプライアンス要件を満たすのに役立ちます。

すべて

機密 VM に基づいて CAA 機密コンテナーソリューションを実装する

Cloud Native AI Suite

XXL-JOB を使用して Dify ワークフローをスケジュールする

リスク監視、データ分析、コンテンツ生成、データ同期など、多くのシナリオにおける Dify ワークフローは、ジョブを自動化するためにスケジューリングに依存しています。しかし、Dify はネイティブではスケジューリングをサポートしていません。この問題に対処するため、このベストプラクティスでは、分散ジョブスケジューラである XXL-JOB を統合して、ワークフローアプリケーションのステータスをスケジュールおよび監視し、安定した運用を確保する方法について説明します。

すべて

XXL-JOB を使用して Dify ワークフローアプリケーションをスケジュールする

2025 年 5 月

プロダクト

特徴

説明

リージョン

リファレンス

Container Service for Kubernetes

Kubernetes 1.33 のサポート

Kubernetes 1.33 のサポートが利用可能になりました。Kubernetes 1.33 を実行するクラスターを作成したり、既存のクラスターを Kubernetes 1.33 にアップグレードしたりできます。

すべて

Kubernetes 1.33

ack-ram-authenticator コンポーネントがデフォルトでインストールされる

Kubernetes 1.33 以降、ack-ram-authenticator マネージドコンポーネントの最新バージョンが、新しく作成された ACK マネージドクラスターにデフォルトでインストールされます。これにより、クラスターノードのリソースは消費されません。

すべて

[サービス通知] ack-ram-authenticator コンポーネントは、Kubernetes 1.33 以降を実行する ACK マネージドクラスターにデフォルトでインストールされます

containerd 2.1.1 がリリース

containerd 2.1.1 は、Node Resource Interface (NRI)、Container Device Interface (CDI)、Sandbox API などの機能をサポートします。

すべて

containerd ランタイムリリースノート

ossfs 2.0 のサポート

ossfs 2.0 は、Filesystem in Userspace (FUSE) に基づくクライアントで、Alibaba Cloud OSS をローカルファイルシステムとしてマウントできます。これにより、アプリケーションコンテナーは、ローカルファイルにアクセスするのと同じように、POSIX 操作を通じて OSS データにアクセスできます。ossfs 1.0 と比較して、ossfs 2.0 はシーケンシャルな読み取りおよび書き込み操作と高並行性の小規模ファイルの読み取りでパフォーマンスが向上しています。AI トレーニング、推論、ビッグデータ処理、自動運転など、高いストレージアクセスパフォーマンス要件を持つシナリオに適しています。

すべて

ossfs 2.0

Distributed Cloud Container Platform for Kubernetes (ACK One)

ApplicationSet を使用してマルチ環境のデプロイメントとアプリケーションの依存関係を調整する

新しいベストプラクティスが利用可能になりました。Argo CD の Progressive Syncs 機能と ApplicationSet のマルチ環境リソースオーケストレーション機能に基づいて、開発環境と本番前環境の間で複数のアプリケーションの依存関係管理をサポートする自動デプロイメントシステムを構築する方法について説明します。

すべて

ApplicationSet を使用してマルチ環境のデプロイメントとアプリケーションの依存関係を調整する

2025 年 4 月

プロダクト

特徴

説明

リージョン

リファレンス

Container Service for Kubernetes

Lingjun ノードプールの作成と管理

ACK Pro マネージドクラスターで Lingjun ノードプールを作成および管理できます。

すべて

Lingjun ノードプール

インスタンスプロパティを指定してノードプールを構成する

vCPU やメモリなどのインスタンスプロパティを指定して、ノードプールのインスタンスタイプを構成できます。ノードプールは、スケールアウトの要件を満たすインスタンスタイプを自動的に選択し、スケールアウト操作の成功率を向上させます。

すべて

インスタンスプロパティを指定してノードプールを構成する

リアルタイム AI Profiling

Kubernetes コンテナーシナリオでは、AI Profiling は eBPF と動的プロセスインジェクションに基づく非侵入型のパフォーマンス分析ツールです。GPU ジョブを実行するコンテナープロセスのオンライン検出をサポートします。オンラインサービスでは、この動的にアタッチおよびデタッチ可能なプロファイリングツールにより、サービスコードを変更することなく、リアルタイムで詳細な分析が可能になります。

すべて

コマンドラインから AI Profiling を使用する

プリエンプションを有効にする

クラスターリソースが不足している場合、リソース不足のために高優先度のジョブが実行に失敗することがあります。プリエンプションを有効にすると、ACK スケジューラはリソース偽装を使用して低優先度の Pod を特定して退去させ、計算リソースを解放して高優先度のジョブが迅速に開始されるようにします。

すべて

プリエンプションを有効にする

Gateway with Inference Extension を介してサービスにアクセスする

Gateway with Inference Extension コンポーネントは、Envoy Gateway プロジェクト上に構築されています。基本的な Gateway API の全機能と、オープンソースの Envoy Gateway 拡張リソースをサポートします。

すべて

Gateway with Inference Extension を介してサービスにアクセスする

生成 AI サービスの機能強化

Gateway with Inference Extension コンポーネントを使用して、スマートルーティング、効率的なトラフィック管理、生成 AI 推論サービスの段階的リリース、推論サービスのサーキットブレーキング、推論サービスのトラフィックミラーリングなどの機能実装できます。

すべて

生成 AI サービスの機能強化

PVC から PVC への永続ボリュームのバックアップと回復

クラウド上の ACK クラスター内、または同一リージョンまたは異なるリージョンにある ACK クラスター間でディスクデータをバックアップおよび回復できます。ソースクラスターでバックアップが完了した後、バックアップセンターを使用して、現在のクラスターまたは別のクラスターで新しい永続ボリューム要求 (PVC) とそれに対応する PV のセットを回復できます。その後、ワークロードの YAML 構成を調整することなく、直接マウントできます。

すべて

バックアップセンター

alibabacloud-privateca-issuer がリリース

AlibabaCloud Private CA Issuer がリリースされました。これにより、cert-manager を使用してクラスター内で Alibaba Cloud Private CA 証明書を作成および管理できます。この issuer は現在、ACK App Marketplace で利用可能です。

すべて

なし

ACK マネージドクラスター (インテリジェントホスティングモード) でのワークロードのデプロイと負荷分散の実装

このトピックでは、ACK マネージドクラスター (インテリジェントホスティングモード) にワークロードをデプロイし、ALB Ingress を使用してパブリックネットワークアクセスを行う方法について説明します。手順を完了すると、構成されたドメイン名を通じてアプリケーションにアクセスし、効率的な外部トラフィック管理と負荷分散を実現できます。

すべて

ワークロードのデプロイと負荷分散の実装

Datapath V2 のベストプラクティス

このトピックでは、Datapath V2 が有効になった後に Terway ネットワークプラグインを使用するクラスターのネットワーク構成を最適化する方法について説明します。これには、Conntrack パラメーターの構成や Identity リソースの管理が含まれ、クラスターのパフォーマンスと安定性を向上させます。

すべて

Datapath V2 のベストプラクティス

Dify コンポーネントのアップグレードガイド

新しいベストプラクティスが利用可能になりました。ack-dify を以前のバージョンから v1.0.0 以降にアップグレードする方法について説明します。手順には、データのバックアップ、プラグイン移行ツールのプラグインシステムへのインストール、新しいプラグインエコシステムの有効化が含まれます。

すべて

ACK クラスターの Dify コンポーネントをアップグレードする

Distributed Cloud Container Platform for Kubernetes (ACK One)

PrivateLink を使用してデータセンターのネットワークセグメントにおける IP アドレスの競合を解決する

データセンター内の Kubernetes クラスターが専用回線を介して ACK One 登録済みクラスターに接続された後、内部ネットワークの他のサービスが同じネットワークセグメントを使用しているため、サーバーレスコンピューティングリソースを使用する際に競合が発生する可能性があります。PrivateLink を使用して、データセンターのネットワークセグメントにおける IP アドレスの競合を解決します。

すべて

PrivateLink を使用してデータセンターのネットワークセグメントにおける IP アドレスの競合を解決する

ACS Pod のクロスリージョンスケジューリング

ACK One 登録済みクラスターは、複数のリージョンからのサーバーレスコンピューティングリソースを Kubernetes クラスターにシームレスに統合することをサポートします。これにより、クロスリージョン GPU リソースの動的なスケジューリングと統一管理が可能になります。

すべて

ACS Pod のクロスリージョンスケジューリング

ログ収集

SLS CRD または環境変数を使用してログ収集を構成し、Alibaba Cloud Simple Log Service (SLS) に基づいてコンテナーログを自動的に収集できます。

すべて

Container Service for Edge (ACK Edge)

バージョン 1.32 がリリース

バージョン 1.32 がサポートされました。機能には、CoreDNS、kube-proxy、kubelet から kube-apiserver へのリクエストの最適化、およびクラウドからエッジへの通信トラフィックの削減が含まれます。

すべて

Kubernetes 1.32 を搭載した ACK Edge のリリースノート

専用回線環境でのネットワーク要素の構成

オンプレミスのデータセンター IDC サーバーデバイスを、インターネットまたは専用回線を介してクラスターに接続し、コンテナー化管理を行うことができます。専用回線を介して接続する場合、アクセス前にインフラストラクチャのネットワーク要素を構成する必要があります。

すべて

専用回線環境でのネットワーク要素の構成

Cloud Native AI Suite

HistoryServer コンポーネントのサポート

ネイティブの Ray Dashboard は、クラスターが実行中の場合にのみ利用可能です。クラスターが停止すると、履歴ログやモニタリングデータを取得できません。RayCluster HistoryServer を使用して、クラスター実行中にノードログをリアルタイムで収集し、OSS に永続化できます。

すべて

ACK に HistoryServer コンポーネントをインストールする

KubeRay コンポーネントのサポート

KubeRay Operator コンポーネントをデプロイし、Alibaba Cloud SLS および Prometheus モニタリングと統合して、ログ管理、システムの可観測性、および高可用性を強化できます。

すべて

ACK に KubeRay コンポーネントをインストールする

2025 年 3 月

プロダクト

特徴

説明

リージョン

リファレンス

Container Service for Kubernetes

ACK Pro マネージドクラスターがインテリジェントホスティングモードをサポート

ACK マネージドクラスターを作成する際に、インテリジェントホスティングモードを有効にして、ベストプラクティスに従った Kubernetes クラスターを迅速に作成できます。

クラスターが作成されると、デフォルトでインテリジェントマネージドノードプールが作成されます。このノードプールは、ワークロードの要件に基づいて動的にスケールインまたはスケールアウトします。ACK は、オペレーティングシステムのバージョンアップグレード、ソフトウェアのバージョンアップグレード、セキュリティ脆弱性の修正などの O&M タスクを担当します。

すべて

コントロールプレーンおよびデータプレーンコンポーネントのトレース分析の有効化をサポート

クラスターの API サーバーまたは kubelet のトレース分析を有効にすると、トレース情報が自動的に Managed Service for OpenTelemetry に報告されます。これにより、可視化されたトレース詳細やリアルタイムトポロジーなどのモニタリングデータが提供されます。

すべて

高リスクの KubeConfig に対するショートメッセージおよびメール通知がリリース

削除されたが、アカウントに依然としてリスクをもたらす KubeConfig に関するショートメッセージおよびメール通知を受け取ることができます。

すべて

なし

ACK Gateway with Inference Extension を使用したスマートルーティングとトラフィック管理の実装をサポート

ACK Gateway with Inference Extension コンポーネントを使用して、推論サービス拡張機能を構成し、スマートルーティングと効率的なトラフィック管理を実装できます。

すべて

Gateway with Inference Extension を使用してスマートルーティングとトラフィック管理を実装する

Distributed Cloud Container Platform for Kubernetes (ACK One)

マルチクラスターフリートコンポーネントの統一管理をサポート

ACK One フリートは、クラスター O&M エンジニア向けに統一された自動化されたコンポーネント管理を提供します。複数のコンポーネントとそのバージョンを含むベースラインを定義し、複数のクラスターにデプロイできます。また、コンポーネント構成、デプロイメントバッチ、ロールバックをサポートし、システムの安定性を向上させます。

すべて

マルチクラスターコンポーネント管理

動的配布とデスケーリングをサポート

ACK One フリートは、PropagationPolicy を使用して、サブクラスターの利用可能なリソースに基づいてワークロードレプリカをチャンク化できます。デフォルトでは、ACK One フリートではデスケーリングが有効になっています。2 分ごとに自動チェックが実行されます。Pod が 30 秒以上スケジューリング不可能な状態のままである場合、レプリカはデスケーリングされます。

すべて

動的配布とデスケーリング

Cloud Native AI Suite

Slurm キューの優先度の設定をサポート

Slurm システム環境で適切なキュー構成ポリシーを使用する方法を説明する新しいベストプラクティスが利用可能です。これらのポリシーは、ジョブが送信されたとき、またはそのステータスが変更されたときに、最大数のジョブをスケジュールして処理するのに役立ち、パフォーマンスを最適化します。

すべて

ACK クラスターで Slurm キューの優先度を設定する

2025 年 2 月

プロダクト

特徴

説明

リージョン

リファレンス

Container Service for Kubernetes

コントロールプレーンのセキュリティグループとタイムゾーンの変更をサポート

クラスター作成時に選択したセキュリティグループとタイムゾーンが要件を満たさなくなった場合、クラスターの基本情報ページでコントロールプレーンのセキュリティグループとクラスターのタイムゾーンを変更できます。

すべて

クラスター情報を表示する

ノードプールがカスタム containerd 構成をサポート

ノードプール内のノードの containerd パラメーター設定をカスタマイズできます。たとえば、指定したイメージリポジトリに複数のミラーリポジトリを構成したり、特定のイメージリポジトリのセキュリティ証明書検証をスキップしたりできます。

すべて

ノードプールの containerd パラメーターをカスタマイズする

ノードプールに弾力性強度のヒントが追加

ノードプールがスケールアウトされる際、インスタンスの在庫不足や、指定されたゾーンで ECS インスタンスタイプがサポートされていないために操作が失敗することがあります。弾力性強度を使用して、ノードプール構成の可用性とインスタンスプロビジョニングの健全性を評価し、対応する構成の提案を受け取ることができます。

すべて

ノードプールの弾力性強度を表示する

バッチジョブオーケストレーションの有効化をサポート

Argo Workflows は、YAML または Python を介して並列ジョブのオーケストレーションをサポートする Kubernetes ネイティブのワークフローエンジンです。コンテナー化されたアプリケーションの自動化と管理を簡素化し、CI/CD パイプライン、データ処理、機械学習などのシナリオに適しています。Argo Workflows コンポーネントをインストールしてバッチジョブオーケストレーションを有効にし、Alibaba Cloud Argo CLI またはコンソールを使用してフロータスクを作成および管理できます。

すべて

バッチジョブオーケストレーションを有効にする

GPU 障害検出

ACK が提供する ack-node-problem-detector コンポーネントは、オープンソースプロジェクト node-problem-detector に基づいて、クラスターノード上の異常なアクティビティの監視機能をさらに強化します。このコンポーネントは、GPU 関連の豊富な障害検出項目を提供し、GPU シナリオでの障害検出を強化します。障害が検出されると、障害タイプに基づいて対応する Kubernetes Event または Kubernetes Node Condition が生成されます。

すべて

GPU 障害検出と自動隔離

Distributed Cloud Container Platform for Kubernetes (ACK One)

実際の残存リソースに基づいてマルチクラスター Spark ジョブをスケジュールおよび配布する

このベストプラクティスでは、ACK One フリートと ACK Koordinator コンポーネントを使用して、各クラスターの実際の残存リソース (要求されたリソースではなく) に基づいてマルチクラスター Spark ジョブをスケジュールおよび配布する方法について説明します。これにより、複数のクラスターのアイドルリソースの利用率を最大化し、優先度制御とオフラインハイブリッドデプロイメントを通じてオンラインサービスの正常な運用を保証します。

すべて

実際の残存リソースに基づいてマルチクラスター Spark ジョブをスケジュールおよび配布する

Container Service for Edge (ACK Edge)

Pod vSwitch の追加をサポート

ENS エッジシナリオで、ACK Edge クラスターが Terway Edge プラグインを使用している場合、vSwitch の IP アドレスが不足しているか、Pod CIDR ブロックを拡張する必要がある場合に、Pod vSwitch を追加してクラスターで利用可能な IP アドレスリソースを増やすことができます。

すべて

Pod vSwitch を追加する

GPU リソースモニタリング

ACK Edge クラスターは、データセンターやエッジの GPU ノードを管理し、複数のリージョンや環境にまたがる異種計算能力を統一的に管理できます。ACK Edge クラスターを Alibaba Cloud Prometheus モニタリングに接続することで、データセンターやエッジの GPU ノードに、クラウド上と同じ可観測性機能を提供できます。

すべて

ACK Edge クラスターにおける GPU リソースモニタリングのベストプラクティス

Cloud Native AI Suite

ACK に基づいて DeepSeek 蒸留モデル推論サービスをデプロイする

このトピックでは、DeepSeek-R1-Distill-Qwen-7B モデルを例として、Alibaba Cloud Container Service for Kubernetes (ACK) の KServe を使用して、本番環境に対応した DeepSeek 蒸留モデル推論サービスをデプロイする方法について説明します。

すべて

ACK に基づいて DeepSeek 蒸留モデル推論サービスをデプロイする

ACK 上の分散マルチノードデプロイメントで完全な DeepSeek モデルを推論用にデプロイするためのベストプラクティス

このベストプラクティスでは、ACK に基づく DeepSeek-R1-671B 大規模モデルの分散推論ソリューションについて説明します。このソリューションは、ハイブリッド並列処理ポリシーと Alibaba Cloud Arena ツールを使用して、2 つのノードでの効率的な分散デプロイメントを実現します。また、デプロイされた DeepSeek-R1 を Dify プラットフォームにシームレスに統合し、長文理解をサポートするエンタープライズレベルの AI チャットシステムを迅速に構築する方法についても説明します。

すべて

ACK 上の分散マルチノードデプロイメントで完全な DeepSeek モデルを推論用にデプロイするための実践

2025 年 1 月

プロダクト

特徴

説明

リージョン

リファレンス

Container Service for Kubernetes

ノードプールがオンデマンドイメージアクセラレーションをサポート

ACK は、Data Accelerator for Disaggregated Infrastructure (DADI) イメージアクセラレーション技術に基づいて、コンテナーイメージのオンデマンドロードをサポートします。これにより、完全なイメージのダウンロードが不要になり、オンラインでの展開が可能になり、アプリケーションの起動時間が大幅に短縮されます。

すべて

オンデマンドコンテナーイメージロードを使用してコンテナーの起動を高速化する

Alibaba Cloud Linux 3 Container Optimized Edition オペレーティングシステムのサポートが追加

Alibaba Cloud Linux 3 Container Optimized Edition (Alibaba Cloud Linux 3.2104 LTS 64 ビット Container Optimized Edition) は、Alibaba Cloud Linux のデフォルトの標準イメージをベースに、コンテナーシナリオ向けに最適化されたイメージバージョンです。Container Service for Kubernetes の多くのお客様からの豊富な実践経験に基づき、Alibaba Cloud は Alibaba Cloud Linux 3 Container Optimized Edition イメージを開発しました。この自社開発のクラウドネイティブオペレーティングシステムは、より高いデプロイメント密度、より高速な起動速度、より強力なセキュリティ隔離というコンテナーシナリオの要求を満たすように設計されています。

すべて

Kubernetes 1.32 のサポート

ACK は Kubernetes 1.32 をサポートするようになりました。Kubernetes 1.32 を実行するクラスターを作成したり、既存のクラスターを Kubernetes 1.32 にアップグレードしたりできます。

すべて

Kubernetes 1.32

ElasticQuotaTree とジョブキューを使用してリソース使用率を向上させるサポート

異なるチームやジョブがクラスター内の計算リソースを共有しながら、適切なリソース割り当てと隔離を確保するために、ack-kube-queue、ElasticQuotaTree、ack-scheduler を使用して柔軟なリソース管理を実現できます。

すべて

なし

リソースグループを使用したクラスターリソースの詳細な制御に関する新しいベストプラクティス

Container Service for Kubernetes のリソースをより効率的に管理するために、リソースグループを使用できます。リソースグループを使用すると、部門、プロジェクト、環境などのディメンションでリソースを整理できます。Resource Access Management (RAM) と組み合わせることで、単一の Alibaba Cloud アカウント内でのリソース隔離と詳細な権限管理が可能になります。

すべて

リソースグループを使用して詳細なリソース制御を行う

Distributed Cloud Container Platform for Kubernetes (ACK One)

ACK One 登録済みクラスターが ACS 計算能力にアクセス可能

ACK One 登録済みクラスターで ACS が提供するコンテナー計算能力を使用できます。

すべて

仮想ノードを使用して ACS に Pod をスケジュールする

ネイティブサービスドメイン名を使用したクラスター間サービスアクセスをサポート

ACK One マルチクラスターサービスは、MultiClusterService を介してネイティブサービスドメイン名を使用したクラスター間サービスアクセスをサポートします。サービスコード、アプリケーション Pod の DNSConfig 構成、または CoreDNS 構成を変更することなく、ネイティブサービスを直接使用してクラスター間トラフィックをルーティングできます。

すべて

ネイティブサービスドメイン名を使用してクラスター間サービスアクセスを行う

Go SDK を使用したマルチクラスターリソースへのアクセスをサポート

ACK One フリートをプラットフォームに統合してサブクラスターのリソースにアクセスしたい場合は、Go SDK を使用できます。

すべて

Go SDK を使用してマルチクラスターリソースにアクセスする

Container Service for Edge (ACK Edge)

クラウドノードのスケーリングをサポート

オンプレミスのノードリソースが不足している場合、ノードの自動スケーリング機能は、ACK Edge クラスターのクラウドノードを自動的にスケールアウトして、スケジューリング容量を補うことができます。

すべて

クラウド ECS ノードの弾力性

ハイブリッドクラウド LLM 弾力推論サービスのデプロイをサポート

ack-kserve コンポーネントをインストールし、ACK Edge クラスターのクラウド弾力性機能を使用することで、ハイブリッドクラウド LLM 弾力推論サービスをデプロイできます。これにより、クラウドとオンプレミスのリソースを柔軟にスケジューリングし、LLM 推論サービスの運用コストを削減できます。

すべて

共有 GPU スケジューリングをサポート

共有 GPU スケジューリングを使用すると、複数の Pod を同じ GPU カードにスケジュールして、その計算リソースを共有できます。これにより、GPU の使用率が向上し、コストが削減されます。

  • ACK Edge クラスターのクラウドノードは、GPU 共有、GPU メモリ分離、および計算能力分離機能をサポートします。

  • ACK Edge クラスターのエッジノードプールは、GPU 共有のみをサポートします。GPU メモリ分離および計算能力分離機能はサポートされていません。

すべて

共有 GPU スケジューリングを使用する

複数リージョンにまたがる ECS リソースの統一管理をサポート

新しいベストプラクティスが利用可能になりました。これは、ACK Edge クラスターを使用して、異なるリージョンに分散された計算リソースを一元管理する方法について説明します。これにより、クラウドネイティブアプリケーションの完全なライフサイクル管理と効率的なリソーススケジューリングが可能になります。

すべて

複数リージョンにまたがる ECS リソースを一元管理する

詳細情報

2025 年より前の ACK のリリースノートについては、「リリースノート (2025 年以前)」をご参照ください。