ACK における KServe デプロイアーキテクチャ概要 - Container Service for Kubernetes (ACK)

KServe は、Kubernetes 上に機械学習モデルをデプロイおよび実行するプロセスを簡素化するために設計された、オープンソースのクラウドネイティブモデルサービスプラットフォームです。KServe は複数の機械学習フレームワークをサポートし、自動スケーリング機能を提供します。 KServe では、宣言型 API を使用したシンプルな YAML 構成ファイルでモデルをデプロイできます。この方法で、モデルサービスを簡単に構成および管理できます。

フレームワーク

KServe は、機械学習モデルサービスを管理および提供するための一連の CustomResourceDefinitions（CRD）を提供します。 KServe は、TensorFlow、XGBoost、scikit-learn、PyTorch、Huggingface Transformer/LLM など、幅広いモデルに対応した、使いやすい高度なインターフェイスと標準化されたデータプレーンプロトコルを提供します。さらに、KServe は、自動スケーリング、ネットワーキング、ヘルスチェック、サーバー構成の複雑な操作をカプセル化して、GPU 自動スケーリング、Scale to Zero、カナリアリリースなどの機能を実装します。これらの機能により、AI モデルのデプロイとメンテナンスのプロセスが簡素化されます。

詳細については、「KServe」をご参照ください。

デプロイメントモード

KServe は、Raw Deployment、Serverless、ModelMesh の 3 つのデプロイメントモードを提供します。サポートされる KServe の機能は、デプロイメントモードによって異なります。

デプロイメントモード	説明	参照
Raw Deployment	Raw Deployment は、cert-manager とゲートウェイのみに依存する、KServe の最もシンプルなデプロイメントモードです。このデプロイメントモードでは、自動スケーリング、Prometheus モニタリング、特定のゲートウェイを使用したカナリアリリース、GPU 自動スケーリングなどの機能がサポートされています。	vLLM 推論アプリケーションをデプロイする推論サービスのカナリアリリースを実行するサービスの自動スケーリングを構成する Prometheus モニタリングを構成する Fluid を使用して推論アクセラレーションを実装する
Serverless	Serverless デプロイメントモードは、cert-manager、ゲートウェイ、および Knative に依存します。このデプロイメントモードでは、自動スケーリング、Scale to Zero、カナリアリリース、GPU 自動スケーリングなどの機能がサポートされています。	詳細については、「Serverless モードモデルを推論サービスとしてデプロイする」をご参照ください。
ModelMesh	ModelMesh デプロイメントモードは、cert-manager、Knative、および ModelMesh に依存します。たとえば、ModelMesh はサービスメッシュ (ASM) をデプロイするために使用されます。このデプロイメントモードでは、自動スケーリング、Scale to Zero、カナリアリリース、GPU 自動スケーリングなどの機能がサポートされています。	N/A

ack-kserve のインストール

Container Service for Kubernetes (ACK) クラスタに ack-kserve をデプロイおよび管理する方法の詳細については、「ack-kserve をインストールする」をご参照ください。