すべてのプロダクト
Search
ドキュメントセンター

Function Compute:LLM メトリックモニタリング

最終更新日:Mar 26, 2026

Function Compute を使用すると、GPU 関数で実行される LLM 推論サービスのメトリックをモニタリングできます。コンソール上でリクエスト状態、トークンスループット、最初のトークンまでの時間などのデータを確認することで、サービスの健全性を把握し、パフォーマンスを最適化できます。

前提条件

  • vLLM または SGLang の推論フレームワークを使用する GPU 関数を作成しました。

  • Log Service(ログモニタリング)を有効にしました。

制限事項

  • LLM メトリックモニタリングは、GPU 関数のみで利用可能です。

  • ログモニタリングを利用する場合、設定モードカスタム設定 に設定する必要があります。自動構成モードでは LLM メトリックを有効化できません。

  • SGLang の場合、起動コマンドに明示的に --enable-metrics パラメーターを追加する必要があります。vLLM ではデフォルトでメトリックが有効化されます。

LLM メトリックの有効化

新規関数向けのメトリック有効化

新規関数を作成する際に LLM メトリックモニタリングを有効化するには、以下の手順を実行してください。

  1. Function Compute コンソール にログインします。上部ナビゲーションバーから リージョン を選択します。

  2. 左側ナビゲーションウィンドウで、関数管理関数 を選択します。右ペインで 関数を作成 をクリックします。

  3. 最適な関数タイプを選択 ページで、GPU 関数 を選択し、{title} の作成 をクリックします。

  4. {title} の作成 ページで、詳細設定 内の ログ監視、Tracing Analysis セクションにおいて、設定モードカスタム設定 に、LLM メトリック有効 に設定します。

  5. GPU 関数の作成 に記載されている通り、その他のパラメーターを設定し、作成 をクリックします。

説明

メトリックの収集は、インスタンスが起動して実行状態になってから開始されます。SGLang を使用する場合は、起動コマンドに --enable-metrics を追加してください。

これで、該当関数に対して LLM メトリックモニタリングが有効化されました。

既存関数向けのメトリック有効化

既存関数に対して LLM メトリックを有効化するには、以下の手順を実行してください。

  1. 関数の 設定 タブで、詳細設定 セクションを見つけ、右上隅の 変更 をクリックします。

  2. ログ セクションで、LLM メトリック を有効化し、デプロイ をクリックします。

  3. インスタンスのローテーションが完了し、新しいインスタンスが作成された後、関数の 監視メトリクス タブで LLM メトリックを確認できます。

説明

vLLM ではデフォルトでメトリックが有効化されますが、SGLang では起動パラメーターとして --enable-metrics を明示的に追加する必要があります。

LLM メトリックの確認

  1. Function Compute コンソール にログインします。上部ナビゲーションバーから リージョン を選択します。

  2. 左側ナビゲーションウィンドウで、関数管理関数 を選択し、ご利用の関数名をクリックします。

  3. 関数の詳細ページで、監視メトリクス タブをクリックします。

  4. LLM メトリック サブタブをクリックしてメトリックを表示します。チャート上にマウスを合わせると、詳細な値を確認できます。

説明

LLM メトリックが有効化されていない場合、ページにプロンプトが表示され、構成ページへのリンクが提供されます。

メトリック

vLLM メトリック

vLLM では、以下のメトリックがサポートされています。

メトリック名

説明

リクエスト状態

リクエストの状態です。有効な値:実行中、待機中、スワップ中。

トークンスループット(トークン/秒)

1 秒あたりに処理されるトークン数です。

リクエスト完了状態

リクエストの完了状態です。

最初のトークンまでの時間(秒)

リクエスト開始から最初のトークンが生成されるまでの経過時間です。

エンドツーエンドリクエスト遅延(秒)

リクエストの開始から完了までに要した合計時間です。

キュー待ち時間(秒)

リクエストが処理される前にキュー内で待機する時間です。

推論時間(秒)

モデルによる推論処理に要した時間です。

プレフィル時間(秒)

入力プロンプト(プレフィル段階)の処理に要した時間です。

デコード時間(秒)

出力トークンの生成(デコード段階)に要した時間です。

処理済みプレフィルトークン数

処理済みのプレフィルトークン数です。

処理済み生成トークン数

処理済みの生成トークン数です。

リクエストパラメーター

リクエストのパラメーターです。

SGLang メトリック

SGLang では、以下のメトリックがサポートされています。

メトリック名

説明

リクエスト数

リクエストの数です。

トークンスループット(トークン/秒)

1 秒あたりに処理されるトークン数です。

最初のトークンまでの時間(秒)

リクエスト開始から最初のトークンが生成されるまでの経過時間です。

エンドツーエンドリクエスト遅延

リクエストの開始から完了までに要した合計時間です。

KV キャッシュヒット率(%)

KV キャッシュから提供された検索の割合です。

使用済みトークン数

使用済みのトークン数です。

トークン使用量(%)

トークンの使用量をパーセンテージ(%)で表したものです。

一部のメトリックではパーセンタイル統計がサポートされています。

これは、vLLM の「最初のトークンまでの時間」「エンドツーエンドリクエスト遅延」「キュー待ち時間」「推論時間」「プレフィル時間」「デコード時間」「処理済みプレフィルトークン数」「処理済み生成トークン数」、および SGLang の「最初のトークンまでの時間」「エンドツーエンドリクエスト遅延」などに該当します。