GPU 関数の作成または設定時に LLM メトリックのモニタリングを有効化する方法、および関数のモニタリングページで vLLM や SGLang などの推論フレームワーク向けメトリックを確認する方法について説明します。 - Function Compute

Function Compute を使用すると、GPU 関数で実行される LLM 推論サービスのメトリックをモニタリングできます。コンソール上でリクエスト状態、トークンスループット、最初のトークンまでの時間などのデータを確認することで、サービスの健全性を把握し、パフォーマンスを最適化できます。

前提条件

vLLM または SGLang の推論フレームワークを使用する GPU 関数を作成しました。
Log Service（ログモニタリング）を有効にしました。

制限事項

LLM メトリックモニタリングは、GPU 関数のみで利用可能です。
ログモニタリングを利用する場合、設定モード を カスタム設定 に設定する必要があります。自動構成モードでは LLM メトリックを有効化できません。
SGLang の場合、起動コマンドに明示的に --enable-metrics パラメーターを追加する必要があります。vLLM ではデフォルトでメトリックが有効化されます。

LLM メトリックの有効化

新規関数向けのメトリック有効化

新規関数を作成する際に LLM メトリックモニタリングを有効化するには、以下の手順を実行してください。

Function Compute コンソールにログインします。上部ナビゲーションバーから リージョン を選択します。
左側ナビゲーションウィンドウで、関数管理 ＞関数を選択します。右ペインで 関数を作成 をクリックします。
最適な関数タイプを選択 ページで、GPU 関数 を選択し、{title} の作成 をクリックします。
{title} の作成 ページで、詳細設定 内の ログ監視、Tracing Analysis セクションにおいて、設定モード を カスタム設定 に、LLM メトリック を有効に設定します。
GPU 関数の作成に記載されている通り、その他のパラメーターを設定し、作成をクリックします。

説明

メトリックの収集は、インスタンスが起動して実行状態になってから開始されます。SGLang を使用する場合は、起動コマンドに --enable-metrics を追加してください。

これで、該当関数に対して LLM メトリックモニタリングが有効化されました。

既存関数向けのメトリック有効化

既存関数に対して LLM メトリックを有効化するには、以下の手順を実行してください。

関数の設定タブで、詳細設定 セクションを見つけ、右上隅の変更をクリックします。
ログセクションで、LLM メトリック を有効化し、デプロイ をクリックします。
インスタンスのローテーションが完了し、新しいインスタンスが作成された後、関数の 監視メトリクス タブで LLM メトリックを確認できます。

説明

vLLM ではデフォルトでメトリックが有効化されますが、SGLang では起動パラメーターとして --enable-metrics を明示的に追加する必要があります。

LLM メトリックの確認

Function Compute コンソールにログインします。上部ナビゲーションバーから リージョン を選択します。
左側ナビゲーションウィンドウで、関数管理 ＞関数を選択し、ご利用の関数名をクリックします。
関数の詳細ページで、監視メトリクス タブをクリックします。
LLM メトリック サブタブをクリックしてメトリックを表示します。チャート上にマウスを合わせると、詳細な値を確認できます。

説明

LLM メトリックが有効化されていない場合、ページにプロンプトが表示され、構成ページへのリンクが提供されます。

メトリック

vLLM メトリック

vLLM では、以下のメトリックがサポートされています。

メトリック名	説明
リクエスト状態	リクエストの状態です。有効な値：実行中、待機中、スワップ中。
トークンスループット（トークン/秒）	1 秒あたりに処理されるトークン数です。
リクエスト完了状態	リクエストの完了状態です。
最初のトークンまでの時間（秒）	リクエスト開始から最初のトークンが生成されるまでの経過時間です。
エンドツーエンドリクエスト遅延（秒）	リクエストの開始から完了までに要した合計時間です。
キュー待ち時間（秒）	リクエストが処理される前にキュー内で待機する時間です。
推論時間（秒）	モデルによる推論処理に要した時間です。
プレフィル時間（秒）	入力プロンプト（プレフィル段階）の処理に要した時間です。
デコード時間（秒）	出力トークンの生成（デコード段階）に要した時間です。
処理済みプレフィルトークン数	処理済みのプレフィルトークン数です。
処理済み生成トークン数	処理済みの生成トークン数です。
リクエストパラメーター	リクエストのパラメーターです。

SGLang メトリック

SGLang では、以下のメトリックがサポートされています。

メトリック名	説明
リクエスト数	リクエストの数です。
トークンスループット（トークン/秒）	1 秒あたりに処理されるトークン数です。
最初のトークンまでの時間（秒）	リクエスト開始から最初のトークンが生成されるまでの経過時間です。
エンドツーエンドリクエスト遅延	リクエストの開始から完了までに要した合計時間です。
KV キャッシュヒット率（%）	KV キャッシュから提供された検索の割合です。
使用済みトークン数	使用済みのトークン数です。
トークン使用量（%）	トークンの使用量をパーセンテージ（%）で表したものです。

一部のメトリックではパーセンタイル統計がサポートされています。

これは、vLLM の「最初のトークンまでの時間」「エンドツーエンドリクエスト遅延」「キュー待ち時間」「推論時間」「プレフィル時間」「デコード時間」「処理済みプレフィルトークン数」「処理済み生成トークン数」、および SGLang の「最初のトークンまでの時間」「エンドツーエンドリクエスト遅延」などに該当します。