LLM アプリケーション用に Python プローブをインストールした後、ARMS は監視を開始できます。トークン分析 ページで LLM アプリケーションのトークン使用状況を確認できます。
大規模モデルアプリケーションでは、トークンはテキスト処理の基本単位であり、モデルの入力と出力の最小セマンティック単位を表します。トークンは、モデルで使用されるトークナイザーに応じて、単語、サブワード、または文字になります。
前提条件
LLM アプリケーションのプローブがインストールされている必要があります。詳細な手順については、「LLM アプリケーションへの ARMS のアクセス」をご参照ください。
LLM アプリケーション トークン分析の表示
-
上部のナビゲーションバーで、トークン分析 をクリックします。

パネル
説明
トークン使用量
指定された期間内にすべてのモデル呼び出しによって消費されたトークンの総数。
LLM 呼び出しあたりの平均トークン数
LLM 呼び出しあたりに消費されるトークンの平均数。
リクエストあたりの平均トークン数
ユーザーリクエストあたりに消費されるトークンの平均数。
1 分あたりの消費トークン数
1 分あたりにすべてのモデル呼び出しによって消費されたトークンの総数。
1 分あたりの LLM 呼び出しあたりの平均トークン数
1 分あたりの LLM 呼び出しあたりに消費されるトークンの平均数。
1 分あたりのリクエストあたりの平均トークン数
1 分あたりのユーザーリクエストあたりに消費されるトークンの平均数。
トークン使用量上位 5 モデル
トークン消費量の高い上位 5 つのモデルを降順で表示します。
トークン使用量上位 5 セッション
トークン消費量の高い上位 5 つのセッションを降順で表示します。
トークン使用量上位 5 ユーザー
トークン消費量の高い上位 5 ユーザーを降順で表示します。