LLM 推論サービスのモニタリングの設定 - Container Service for Kubernetes

可観測性は、本番環境で大規模言語モデル（LLM）推論サービスを管理するために不可欠です。サービス、そのポッド、および関連 GPU の主要なパフォーマンスメトリックを監視することにより、パフォーマンスのボトルネックを効果的に特定し、障害を診断できます。このトピックでは、LLM 推論サービスのモニタリングを設定する方法について説明します。

前提条件

Container Service for Kubernetes（ACK）クラスタでManaged Service for Prometheus が有効になっていること。

課金

LLM 推論サービスのモニタリングを有効にすると、そのメトリックは Managed Service for Prometheus にカスタムメトリックとして送信されます。

カスタムメトリックを使用すると、追加料金が発生します。コストは、クラスタサイズ、アプリケーション数、データ量などの要因によって異なる場合があります。使用量クエリを使用して、リソース消費量を監視および管理できます。

ステップ 1：LLM 推論サービスのモニタリングダッシュボードにアクセスする

ARMS コンソールにログオンします。
左側のナビゲーションウィンドウで、[統合センター] をクリックします。 [AI] セクションで、[クラウドネイティブ AI スイート LLM 推論] カードをクリックします。
[クラウドネイティブ AI スイート LLM 推論] パネルで、ターゲットクラスタを選択します。
コンポーネントがすでにインストールされている場合は、この手順をスキップします。

[構成情報] セクションで、パラメータを設定し、[OK] をクリックしてコンポーネントを接続します。

パラメータ	説明
アクセス名	現在の LLM 推論サービスモニタリングの一意の名前。このパラメータはオプションです。
名前空間	メトリックを収集する名前空間。このパラメータはオプションです。空のままにすると、条件を満たすすべての名前空間からメトリックが収集されます。
ポッドポート	LLM 推論サービスポッドのポートの名前。このポートはメトリック収集に使用されます。デフォルト値：`http`。
メトリック収集パス	Prometheus 形式でメトリックを公開する LLM 推論サービスポッドの HTTP パス。デフォルト値：`/metrics`。
収集間隔（秒）	モニタリングデータを収集する間隔。

ARMS コンソールの[統合管理] ページで、すべての統合コンポーネントを表示できます。

統合センターの詳細については、「統合ガイド」をご参照ください。

ステップ 2：メトリック収集を有効にして推論サービスをデプロイする

LLM 推論サービスのメトリック収集を有効にするには、デプロイメントマニフェストのポッドスペックに次のラベルを追加します。

...
spec:
  template:
    metadata:
      labels:
        alibabacloud.com/inference-workload: <workload_name>
        alibabacloud.com/inference-backend: <backend>

ラベル

目的

説明

alibabacloud.com/inference-workload

名前空間内の推論サービスの一意の識別子。

推奨値：ポッドを管理するワークロードリソースの名前（StatefulSet、Deployment、RoleBasedGroup など）。

このラベルが存在する場合、ポッドは ARMS メトリック収集ターゲットに追加されます。

alibabacloud.com/inference-backend

サービスで使用される推論エンジン。

サポートされている値は次のとおりです。

vllm：vLLM を使用するスタンドアロンまたは分散推論サービス。
sglang：SGLang を使用するスタンドアロンまたは分散推論サービス。
vllm-pd：事前入力/デコード（PD）分離を使用して vLLM を使用する推論サービス。
sglang-pd：PD 分離を使用して SGLang を使用する推論サービス。

上記のコードスニペットは、LLM 推論サービスポッドのメトリック収集を有効にする方法を示しています。完全なデプロイメント例については、次のトピックを参照してください。

ステップ 3：推論サービスのモニタリングダッシュボードを表示する

ACK コンソールにログオンします。
左側のナビゲーションウィンドウで、[クラスタ] をクリックします。
[クラスタ] ページで、ターゲットの ACK または Alibaba Cloud Container Compute Service（ACS）クラスタをクリックします。左側のナビゲーションウィンドウで、[操作] > [Prometheus モニタリング] を選択します。
[Prometheus モニタリング] ページで、[その他] > [LLM 推論ダッシュボード] を選択して、詳細なパフォーマンスデータを表示します。
ダッシュボードフィルターを使用して、検査する namespace、workload_name、および model_name を選択します。各パネルの詳細な説明については、「ダッシュボードパネルの説明」をご参照ください。

メトリックリファレンス

モニタリングダッシュボードは、次のソースからのメトリックを集約します。

vLLM メトリック：公式のvLLM メトリックリストを参照してください。
SGLang メトリック：公式のSGLang メトリックリストを参照してください。

ダッシュボードパネルの説明

LLM 推論サービスダッシュボードは、サービスのパフォーマンスを階層的に表示するように設計されています。 Kubernetes ワークロードが推論サービスをデプロイしていると想定しています。推論サービスには複数のインスタンスが含まれる場合があり、インスタンスは 1 つ以上のポッドで構成される場合があります。各推論サービスインスタンスは、ベースモデルと LoRA アダプターの組み合わせなど、1 つ以上のモデルに LLM 推論機能を提供できます。

ダッシュボードは、次の 3 つの主要なセクションに分かれています。

モデルレベル

このセクションには、提供されているすべての推論サービスにわたる特定のモデルの集約メトリックが表示されます。これらのパネルを使用して、モデルサービスの全体的なパフォーマンスと正常性を評価します。

ポッドレベル

このセクションでは、パフォーマンスメトリックを個々のポッドごとに分類します。これらのパネルを使用して、負荷分散を分析し、サービスのポッド間のパフォーマンスのばらつきを特定します。

GPU 統計（ポッドに関連付けられています）

このセクションでは、各ポッドの詳細な GPU 使用率メトリックを提供します。これらのパネルを使用して、各推論サービスポッドが GPU リソースをどのように消費しているかを理解します。

パネルの詳細情報

次の表に、ダッシュボードの各パネルとその異なる推論バックエンドとの互換性を示します。

モデルレベルのパネル

パネル名	説明	推論エンジンの互換性
QPS	すべてのサービスインスタンスで 1 秒あたりに処理されたリクエストの合計数。	`vllm` および `sglang`
リクエスト成功率	正常に処理されたリクエストのパーセンテージ。	`vllm`
E2E 待機時間	平均リクエスト処理時間。	`vllm` および `sglang`
トークンスループット	1 秒あたりに処理される入力（プロンプト）および出力（生成）トークンのレート。	`vllm` および `sglang`
GPU あたりのトークンスループット	推論サービスの入力（プロンプト）および出力（生成）の GPU カードあたりの平均トークンスループットレート。	`vllm` および `sglang`
リクエストプロンプトの長さ	入力トークン長の分布（平均および分位数）。	`vllm`（平均および分位数）および `sglang`（平均のみ）
リクエスト生成の長さ	出力トークン長の分布（平均および分位数）。	`vllm`（平均および分位数）および `sglang`（平均のみ）
TTFT（最初のトークンまでの時間）	最初の出力トークンを生成するまでの待機時間（平均および分位数）。	`vllm` および `sglang`
TPOT（出力トークンあたりの時間）	後続の出力トークンを生成するまでの待機時間（平均および分位数）。	`vllm` および `sglang`
KV キャッシュヒット率	各推論サービスインスタンスの平均 KV キャッシュヒット率。これは、推論フレームワークでプレフィックスキャッシュ機能が有効になっている場合にのみ有効です。	`vllm` および `sglang`
リクエストプロンプトの長さのヒートマップ	入力トークン長の分布を示すヒートマップ。	`vllm`
リクエスト生成の長さのヒートマップ	出力トークン長の分布を示すヒートマップ。	`vllm`

ポッドレベルのパネル

パネル名	説明	推論エンジンの互換性
E2E リクエスト待機時間	ポッドあたりの平均リクエスト処理時間。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
トークンスループット	ポッドあたり、1 秒あたりに処理される入力（プロンプト）および出力（生成）トークンのレート。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
最初のトークンまでの待機時間	ポッドあたり、最初の出力トークンを生成するまでの待機時間（平均および分位数）。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
出力トークンあたりの待機時間	ポッドあたり、後続の出力トークンを生成するまでの待機時間（平均および分位数）。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
KV キャッシュ使用率	ポッドあたり、現在使用中の KV キャッシュのパーセンテージ。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
スケジューラ状態	ポッドあたり、`待機中`、`実行中`、または `スワップ済み`状態のリクエストの数。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd` `sglang` または `sglang-pd` を使用している場合、`待機中`状態と `実行中`状態のみがサポートされます。
完了理由	監視期間内に特定の理由で完了したリクエストの数。理由には以下が含まれます。 `abort`：操作が完了する前に停止します。 `length`：最大出力長に達しました。	`vllm` および `vllm-pd`
キュー時間	ポッドあたり、リクエストがスケジューラクエリで費やす平均時間。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
リクエストの事前入力およびデコード時間	ポッドあたり、事前入力フェーズとデコードフェーズで費やされた平均時間。	`vllm` および `vllm-pd`
KV キャッシュヒット率	各推論サービスポッドの KV キャッシュヒット率。これは、推論フレームワークでプレフィックスキャッシュ機能が有効になっている場合にのみ有効です。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd` に適用されます

GPU 統計（ポッドに関連付けられています）パネル

パネル名	説明	推論エンジンの互換性
ポッド GPU Tensor アクティブ	推論サービスポッドの各 GPU で Tensor（HMMA/IMMA）パイプラインがアクティブになっているサイクルの平均パーセンテージ。この値は、瞬間的な値ではなく、時間間隔での平均値を表します。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
ポッド GPU 使用率	各 GPU の平均全体使用率。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
ポッド GPU SM アクティブ	各 GPU でのストリーミングマルチプロセッサ（SM）の平均使用率。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
ポッド GPU メモリコピー使用率	各 GPU の平均メモリ帯域幅使用率。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd`
ポッド使用済み GPU メモリ	各ポッドで使用されている GPU メモリの平均量。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd` に適用されます
ポッド GPU DRAM アクティブ	サンプル期間中の各 GPU でのメモリ命令実行の頻度。	`vllm`、`sglang`、`vllm-pd`、および `sglang-pd` に適用されます