ドキュメントセンター

すべてのプロダクト

ドキュメントセンター

Application Real-Time Monitoring Service:パフォーマンス分析

最終更新日:Mar 03, 2025

LLM（大規模言語モデル）アプリケーション用に Python プローブをインストールすると、ARMS はパフォーマンスの監視を開始します。 パフォーマンス分析 ページで、呼び出し回数、平均応答時間、エラー率などのメトリックにアクセスできます。

前提条件

プローブは LLM アプリケーションにインストールされている必要があります。詳細については、「参照ドキュメント」をご参照ください。

LLM アプリケーションのパフォーマンス分析の表示

上部のナビゲーションバーで、パフォーマンス分析 をクリックします。

パネル	説明
モデル呼び出し回数	指定された期間内にアプリケーションによって大規模言語モデルが呼び出された回数。
平均モデル呼び出し時間	指定された期間内にアプリケーションが大規模言語モデルを呼び出すのにかかった平均時間。
モデル呼び出しエラー回数	指定された期間内にアプリケーションが大規模言語モデルの呼び出しに失敗した回数。
モデル呼び出し回数/1m	アプリケーションによる大規模言語モデルの呼び出し頻度（1 分あたり）。
平均モデル呼び出し時間/1m	大規模言語モデルの呼び出しにかかる平均時間（1 分あたり）。
モデル呼び出しエラー/1m	1 分あたりに発生する呼び出しエラーの数。
モデル呼び出し時間分位数（P99）/1m	呼び出し時間の P99 分位数。呼び出しの 99% が 1 分あたりこの期間内に完了することを示します。
平均ファーストパケットモデル呼び出し時間/1m	アプリケーションが大規模言語モデルから最初のデータパケットを受信するまでの平均時間（1 分あたり）。
ファーストパケットモデル呼び出し時間分位数（P99）/1m	大規模言語モデルの呼び出し時に最初のデータパケットを受信するまでの時間の P99 分位数（1 分あたり）。
上位 5 件のモデル呼び出しランキング	呼び出し回数の上位 5 件のモデルのリスト（多い順）。
上位 5 件の平均モデル呼び出し時間ランキング	平均呼び出し時間の上位 5 件のモデルのリスト（長い順）。
上位 5 件のモデル呼び出しエラーランキング	呼び出しエラー回数の上位 5 件のモデルのリスト（多い順）。

参照