すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:AI Serving Stack

最終更新日:Nov 10, 2025

大規模言語モデル (LLM) が普及するにつれて、本番環境で効率的、信頼性高く、大規模にデプロイおよび管理することは、ビジネスにとって大きな課題となっています。Cloud-native AI Serving Stack は、Container Service for Kubernetes 上に構築され、クラウドネイティブ AI 推論専用に設計されたエンドツーエンドのソリューションです。このスタックは、LLM 推論のライフサイクル全体に対応し、デプロイメント管理、スマートルーティング、自動スケーリング、詳細な可観測性などの統合機能を提供します。Cloud-native AI Serving Stack は、始めたばかりの場合でも、大規模な AI 操作を実行している場合でも、複雑なクラウドネイティブ AI 推論シナリオの管理に役立ちます。

image.png

コア機能

Cloud-native AI Serving Stack は、Kubernetes 上での LLM 推論サービスの実行をより簡単かつ効率的にします。革新的なワークロード設計、詳細なスケーリング、詳細な可観測性、および強力な拡張メカニズムを使用します。AI Serving Stack には、次のコア機能があります。

機能

説明

リファレンス

単一ノードの LLM 推論をサポート

StatefulSet を使用して LLM 推論サービスをデプロイできます。これは、単一ノード、単一 GPU、および単一ノード、複数 GPU のデプロイメントをサポートします。

単一ノード LLM 推論サービスをデプロイする

複数ノードの分散 LLM 推論をサポート

LeaderWorkerSet を使用して、複数ノード、複数 GPU の分散推論サービスをデプロイできます。

さまざまな推論エンジンの PD 分離デプロイメントをサポート

さまざまな推論エンジンは、さまざまなアーキテクチャとデプロイメントメソッドを使用して PD 分離を実装します。AI Serving Stack は、RoleBasedGroup を統一されたワークロードとして使用して、これらの PD 分離アーキテクチャをデプロイします。

弾性スケーリング

コストとパフォーマンスのバランスをとることは、LLM サービスにとって非常に重要です。AI Serving Stack は、業界をリードする多次元および多層の自動スケーリング機能を提供します。

  • 一般的な弾性サポート: このスタックは、Horizontal Pod Autoscaler (HPA)、Kubernetes Event-driven Autoscaling (KEDA)、Knative (KPA) などの標準的なスケーリングメカニズムを深く統合および最適化して、さまざまなシナリオのニーズに対応します。

  • PD 分離のためのスマートスケーリング: このスタックは、RoleBasedGroup (RBG) の特定のロールの独立したスケーリングを排他的にサポートします。たとえば、推論エンジンのメトリック (リクエストキューの長さなど) に基づいて「Prefill」ロールを動的にスケーリングし、「Scheduler」ロールは安定させることができます。これにより、詳細なリソース構成が実現します。

可観測性

推論プロセスのブラックボックス的な性質は、パフォーマンス最適化の大きな障害です。AI Serving Stack は、すぐに使用できる詳細な可観測性ソリューションを提供します。

  • コアエンジンモニタリング: vLLM や SGLang などの主流の推論エンジン向けに、このスタックは事前構築済みのメトリックダッシュボードを提供します。これらのダッシュボードは、トークンスループット、リクエストレイテンシ、GPU 使用率、KV キャッシュヒット率などの主要なメトリックをカバーします。

  • 迅速な問題特定: 直感的なモニタリングビューにより、開発者はパフォーマンスのボトルネックを迅速に特定し、情報に基づいた最適化の決定を下すことができます。

LLM 推論サービスのモニタリングを構成する

推論ゲートウェイ

ACK Gateway with Inference Extension コンポーネントは、Kubernetes Gateway API とその Inference Extension 仕様に基づく拡張コンポーネントです。Kubernetes レイヤー 4 およびレイヤー 7 のルーティングサービスをサポートし、生成 AI 推論シナリオ向けの一連の拡張機能を提供します。このコンポーネントは、生成 AI 推論サービスの管理を簡素化し、複数の推論サービスワークロードにわたるロードバランシングパフォーマンスを最適化します。

LLM 推論サービスの推論ゲートウェイでスマートルーティングを構成する

モデルアクセラレーション

AI 推論シナリオでは、LLM モデルの読み込みが遅いと、アプリケーションのコールドスタート時間が長くなったり、弾性スケーリングが妨げられたりするなどの問題が発生します。Fluid は、分散キャッシュを構築して、リモートモデルファイルをローカルノードに保存します。これにより、高速な起動、ゼロ冗長性、および極端な弾力性が可能になります。

Fluid データキャッシュ最適化ポリシーのベストプラクティス

パフォーマンスプロファイリング

より詳細なパフォーマンス分析には、AI Profiling ツールを使用できます。これにより、開発者は GPU コンテナープロセスからデータを収集して、サービスを中断したりコードを変更したりすることなく、オンラインのトレーニングおよび推論サービスのパフォーマンスを監視および分析できます。

  • 非侵入型設計: ワンクリックで開始できます。安全で信頼性が高く、オンラインサービスに影響を与えません。

  • コードのボトルネックに関する洞察: この機能は、特定の CUDA Kernel または Python 関数のレベルでパフォーマンスのホットスポットを特定するのに役立ちます。これにより、極端な最適化をサポートするデータが提供されます。

AI Profiling

免責事項

AI Serving Stack は、オープンソースの推論エンジンとその PD 分離フレームワークのデプロイメントおよび管理機能を提供します。Alibaba Cloud は、AI Serving Stack のテクニカルサポートを提供します。ただし、Alibaba Cloud は、オープンソースエンジンまたはオープンソース PD 分離フレームワークの欠陥によって生じた事業上の損失に対して、補償やその他の商用サービスを提供しません。