KServe は、Kubernetes 上に機械学習モデルをデプロイおよび実行するプロセスを簡素化するために設計された、オープンソースのクラウドネイティブ モデル サービス プラットフォームです。KServe は複数の機械学習フレームワークをサポートし、自動スケーリング機能を提供します。 KServe では、宣言型 API を使用したシンプルな YAML 構成ファイルでモデルをデプロイできます。 この方法で、モデルサービスを簡単に構成および管理できます。
フレームワーク
KServe は、機械学習モデルサービスを管理および提供するための一連の CustomResourceDefinitions(CRD)を提供します。 KServe は、TensorFlow、XGBoost、scikit-learn、PyTorch、Huggingface Transformer/LLM など、幅広いモデルに対応した、使いやすい高度なインターフェイスと標準化されたデータプレーン プロトコルを提供します。 さらに、KServe は、自動スケーリング、ネットワーキング、ヘルスチェック、サーバー構成の複雑な操作をカプセル化して、GPU 自動スケーリング、Scale to Zero、カナリアリリースなどの機能を実装します。 これらの機能により、AI モデルのデプロイとメンテナンスのプロセスが簡素化されます。
詳細については、「KServe」をご参照ください。
デプロイメントモード
KServe は、Raw Deployment、Serverless、ModelMesh の 3 つのデプロイメントモードを提供します。 サポートされる KServe の機能は、デプロイメントモードによって異なります。
デプロイメントモード | 説明 | 参照 |
Raw Deployment | Raw Deployment は、cert-manager とゲートウェイのみに依存する、KServe の最もシンプルなデプロイメントモードです。 このデプロイメントモードでは、自動スケーリング、Prometheus モニタリング、特定のゲートウェイを使用したカナリアリリース、GPU 自動スケーリングなどの機能がサポートされています。 | |
Serverless | Serverless デプロイメントモードは、cert-manager、ゲートウェイ、および Knative に依存します。 このデプロイメントモードでは、自動スケーリング、Scale to Zero、カナリアリリース、GPU 自動スケーリングなどの機能がサポートされています。 | 詳細については、「Serverless モード モデルを推論サービスとしてデプロイする」をご参照ください。 |
ModelMesh | ModelMesh デプロイメントモードは、cert-manager、Knative、および ModelMesh に依存します。 たとえば、ModelMesh は サービスメッシュ (ASM) をデプロイするために使用されます。 このデプロイメントモードでは、自動スケーリング、Scale to Zero、カナリアリリース、GPU 自動スケーリングなどの機能がサポートされています。 | N/A |
ack-kserve のインストール
Container Service for Kubernetes (ACK) クラスタに ack-kserve をデプロイおよび管理する方法の詳細については、「ack-kserve をインストールする」をご参照ください。