LLM アプリケーションの概要

大規模言語モデル (LLM) アプリケーションに Python エージェントをインストールすると、Application Real-Time Monitoring Service (ARMS) がアプリケーションのモニタリングを開始します。[概要] ページでは、モデル呼び出し数、トークン使用量、トレース数、会話数など、LLM アプリケーションの主要なメトリックを確認できます。

前提条件

LLM アプリケーションにエージェントをインストールしておく必要があります。詳細については、「LLM アプリケーションまたは推論サービスを ARMS に接続」をご参照ください。

ARMS コンソールにログインします。左側のナビゲーションウィンドウで、[LLM アプリケーションモニタリング] > [アプリケーションリスト] を選択します。
[アプリケーションリスト] ページで、ページ上部でリージョンを選択し、対象アプリケーションの名前をクリックします。
上部のナビゲーションバーで、[概要] をクリックします。

ダッシュボード

パネル	説明
モデル呼び出し数	選択した時間範囲内で、アプリケーションが LLM を呼び出した回数。
トークン使用量	選択した時間範囲内で、アプリケーションが消費したトークンの数。
トレース数	選択した時間範囲内で、アプリケーションによって生成されたトレースの数。
スパン数	選択した時間範囲内で、アプリケーションによって生成されたスパンの数。
会話数	選択した時間範囲内で、アプリケーションによって開始された会話の数。
ユーザー数	選択した時間範囲内で、アプリケーションと対話したユニークユーザーの総数。
操作タイプのディストリビューション	CHAIN：LLM を他のコンポーネントと接続して複雑なタスクを実行するツール。CHAIN には、取得、埋め込み、LLM 呼び出し、さらにはネストされた他の CHAIN が含まれる場合があります。 EMBEDDING：埋め込みプロセス。たとえば、埋め込みモデルを使用してテキストをベクトル表現に変換する操作などです。これにより、類似検索で関連するコンテキストを見つけることができます。 RETRIEVER：ベクトルストレージまたはデータベースにアクセスしてデータをフェッチする操作。これは通常、LLM に提供されるコンテキストを補足し、応答の精度と関連性を向上させるために使用されます。 RERANKER：特定のクエリに対する関連性に基づいて、入力ドキュメントのセットを並べ替える操作。LLM のコンテキストとして使用するために、最も関連性の高い上位 K 件のドキュメントを返す場合があります。 LLM：大規模言語モデルの呼び出し。たとえば、SDK または API を介して LLM を呼び出し、推論やテキスト生成を実行する場合などです。 TOOL：電卓や天気 API などの外部ツールを呼び出して、現在の天気などの特定の情報を取得する操作。 AGENT：インテリジェントエージェント。LLM の推論を使用して次の操作を決定する複雑な CHAIN です。これには、最終的な回答に段階的に到達するために、LLM と TOOL への複数回の呼び出しが含まれる場合があります。 TASK：アプリケーション内のユーザー定義のカスタムメソッド。たとえば、ローカル関数を呼び出して特定のロジックを適用する場合などです。
リクエストあたりの平均 LLM 呼び出し数	1 分間隔で計算された、リクエストあたりの平均 LLM 呼び出し数。
リクエスト数の傾向	LLM アプリケーションへのリクエスト数を 1 分ごとに追跡します。
モデル呼び出しランキング	アプリケーションで最も頻繁に呼び出された LLM の上位 5 件をリスト表示します。
リクエスト数によるユーザーランキング	アプリケーションで最も多くのリクエストを行ったユーザーの上位 5 名をリスト表示します。
会話数の傾向	LLM アプリケーションの会話数を 1 分ごとに追跡します。

Application Real-Time Monitoring Service:概要

前提条件

LLM アプリケーションの概要

ダッシュボード

モデル呼び出し数

トレース数

会話数

ユーザー数

操作タイプのディストリビューション

リクエストあたりの平均 LLM 呼び出し数

モデル呼び出しランキング

リクエスト数によるユーザーランキング

会話数の傾向

関連ドキュメント