Function Compute を使用すると、GPU 関数で実行される LLM 推論サービスのメトリックをモニタリングできます。コンソール上でリクエスト状態、トークンスループット、最初のトークンまでの時間などのデータを確認することで、サービスの健全性を把握し、パフォーマンスを最適化できます。
前提条件
vLLM または SGLang の推論フレームワークを使用する GPU 関数を作成しました。
Log Service(ログモニタリング)を有効にしました。
制限事項
LLM メトリックモニタリングは、GPU 関数のみで利用可能です。
ログモニタリングを利用する場合、設定モード を カスタム設定 に設定する必要があります。自動構成モードでは LLM メトリックを有効化できません。
SGLang の場合、起動コマンドに明示的に
--enable-metricsパラメーターを追加する必要があります。vLLM ではデフォルトでメトリックが有効化されます。
LLM メトリックの有効化
新規関数向けのメトリック有効化
新規関数を作成する際に LLM メトリックモニタリングを有効化するには、以下の手順を実行してください。
Function Compute コンソール にログインします。上部ナビゲーションバーから リージョン を選択します。
左側ナビゲーションウィンドウで、関数管理 > 関数 を選択します。右ペインで 関数を作成 をクリックします。
最適な関数タイプを選択 ページで、GPU 関数 を選択し、{title} の作成 をクリックします。
{title} の作成 ページで、詳細設定 内の ログ監視、Tracing Analysis セクションにおいて、設定モード を カスタム設定 に、LLM メトリック を 有効 に設定します。
GPU 関数の作成 に記載されている通り、その他のパラメーターを設定し、作成 をクリックします。
メトリックの収集は、インスタンスが起動して実行状態になってから開始されます。SGLang を使用する場合は、起動コマンドに --enable-metrics を追加してください。
これで、該当関数に対して LLM メトリックモニタリングが有効化されました。
既存関数向けのメトリック有効化
既存関数に対して LLM メトリックを有効化するには、以下の手順を実行してください。
関数の 設定 タブで、詳細設定 セクションを見つけ、右上隅の 変更 をクリックします。
ログ セクションで、LLM メトリック を有効化し、デプロイ をクリックします。
インスタンスのローテーションが完了し、新しいインスタンスが作成された後、関数の 監視メトリクス タブで LLM メトリックを確認できます。
vLLM ではデフォルトでメトリックが有効化されますが、SGLang では起動パラメーターとして --enable-metrics を明示的に追加する必要があります。
LLM メトリックの確認
Function Compute コンソール にログインします。上部ナビゲーションバーから リージョン を選択します。
左側ナビゲーションウィンドウで、関数管理 > 関数 を選択し、ご利用の関数名をクリックします。
関数の詳細ページで、監視メトリクス タブをクリックします。
LLM メトリック サブタブをクリックしてメトリックを表示します。チャート上にマウスを合わせると、詳細な値を確認できます。
LLM メトリックが有効化されていない場合、ページにプロンプトが表示され、構成ページへのリンクが提供されます。
メトリック
vLLM メトリック
vLLM では、以下のメトリックがサポートされています。
メトリック名 | 説明 |
リクエスト状態 | リクエストの状態です。有効な値:実行中、待機中、スワップ中。 |
トークンスループット(トークン/秒) | 1 秒あたりに処理されるトークン数です。 |
リクエスト完了状態 | リクエストの完了状態です。 |
最初のトークンまでの時間(秒) | リクエスト開始から最初のトークンが生成されるまでの経過時間です。 |
エンドツーエンドリクエスト遅延(秒) | リクエストの開始から完了までに要した合計時間です。 |
キュー待ち時間(秒) | リクエストが処理される前にキュー内で待機する時間です。 |
推論時間(秒) | モデルによる推論処理に要した時間です。 |
プレフィル時間(秒) | 入力プロンプト(プレフィル段階)の処理に要した時間です。 |
デコード時間(秒) | 出力トークンの生成(デコード段階)に要した時間です。 |
処理済みプレフィルトークン数 | 処理済みのプレフィルトークン数です。 |
処理済み生成トークン数 | 処理済みの生成トークン数です。 |
リクエストパラメーター | リクエストのパラメーターです。 |
SGLang メトリック
SGLang では、以下のメトリックがサポートされています。
メトリック名 | 説明 |
リクエスト数 | リクエストの数です。 |
トークンスループット(トークン/秒) | 1 秒あたりに処理されるトークン数です。 |
最初のトークンまでの時間(秒) | リクエスト開始から最初のトークンが生成されるまでの経過時間です。 |
エンドツーエンドリクエスト遅延 | リクエストの開始から完了までに要した合計時間です。 |
KV キャッシュヒット率(%) | KV キャッシュから提供された検索の割合です。 |
使用済みトークン数 | 使用済みのトークン数です。 |
トークン使用量(%) | トークンの使用量をパーセンテージ(%)で表したものです。 |
一部のメトリックではパーセンタイル統計がサポートされています。
これは、vLLM の「最初のトークンまでの時間」「エンドツーエンドリクエスト遅延」「キュー待ち時間」「推論時間」「プレフィル時間」「デコード時間」「処理済みプレフィルトークン数」「処理済み生成トークン数」、および SGLang の「最初のトークンまでの時間」「エンドツーエンドリクエスト遅延」などに該当します。