大規模言語モデル (LLM) が普及するにつれて、本番環境で効率的、信頼性高く、大規模にデプロイおよび管理することは、ビジネスにとって大きな課題となっています。Cloud-native AI Serving Stack は、Container Service for Kubernetes 上に構築され、クラウドネイティブ AI 推論専用に設計されたエンドツーエンドのソリューションです。このスタックは、LLM 推論のライフサイクル全体に対応し、デプロイメント管理、スマートルーティング、自動スケーリング、詳細な可観測性などの統合機能を提供します。Cloud-native AI Serving Stack は、始めたばかりの場合でも、大規模な AI 操作を実行している場合でも、複雑なクラウドネイティブ AI 推論シナリオの管理に役立ちます。

コア機能
Cloud-native AI Serving Stack は、Kubernetes 上での LLM 推論サービスの実行をより簡単かつ効率的にします。革新的なワークロード設計、詳細なスケーリング、詳細な可観測性、および強力な拡張メカニズムを使用します。AI Serving Stack には、次のコア機能があります。
機能 | 説明 | リファレンス |
単一ノードの LLM 推論をサポート | StatefulSet を使用して LLM 推論サービスをデプロイできます。これは、単一ノード、単一 GPU、および単一ノード、複数 GPU のデプロイメントをサポートします。 | |
複数ノードの分散 LLM 推論をサポート | LeaderWorkerSet を使用して、複数ノード、複数 GPU の分散推論サービスをデプロイできます。 | |
さまざまな推論エンジンの PD 分離デプロイメントをサポート | さまざまな推論エンジンは、さまざまなアーキテクチャとデプロイメントメソッドを使用して PD 分離を実装します。AI Serving Stack は、RoleBasedGroup を統一されたワークロードとして使用して、これらの PD 分離アーキテクチャをデプロイします。 | |
弾性スケーリング | コストとパフォーマンスのバランスをとることは、LLM サービスにとって非常に重要です。AI Serving Stack は、業界をリードする多次元および多層の自動スケーリング機能を提供します。
| |
可観測性 | 推論プロセスのブラックボックス的な性質は、パフォーマンス最適化の大きな障害です。AI Serving Stack は、すぐに使用できる詳細な可観測性ソリューションを提供します。
| |
推論ゲートウェイ | ACK Gateway with Inference Extension コンポーネントは、Kubernetes Gateway API とその Inference Extension 仕様に基づく拡張コンポーネントです。Kubernetes レイヤー 4 およびレイヤー 7 のルーティングサービスをサポートし、生成 AI 推論シナリオ向けの一連の拡張機能を提供します。このコンポーネントは、生成 AI 推論サービスの管理を簡素化し、複数の推論サービスワークロードにわたるロードバランシングパフォーマンスを最適化します。 | |
モデルアクセラレーション | AI 推論シナリオでは、LLM モデルの読み込みが遅いと、アプリケーションのコールドスタート時間が長くなったり、弾性スケーリングが妨げられたりするなどの問題が発生します。Fluid は、分散キャッシュを構築して、リモートモデルファイルをローカルノードに保存します。これにより、高速な起動、ゼロ冗長性、および極端な弾力性が可能になります。 | |
パフォーマンスプロファイリング | より詳細なパフォーマンス分析には、AI Profiling ツールを使用できます。これにより、開発者は GPU コンテナープロセスからデータを収集して、サービスを中断したりコードを変更したりすることなく、オンラインのトレーニングおよび推論サービスのパフォーマンスを監視および分析できます。
|
免責事項
AI Serving Stack は、オープンソースの推論エンジンとその PD 分離フレームワークのデプロイメントおよび管理機能を提供します。Alibaba Cloud は、AI Serving Stack のテクニカルサポートを提供します。ただし、Alibaba Cloud は、オープンソースエンジンまたはオープンソース PD 分離フレームワークの欠陥によって生じた事業上の損失に対して、補償やその他の商用サービスを提供しません。