モデルモニタリング機能を以下のようにご利用いただけます。
呼び出し記録の表示
トークン遅延、呼び出し時間、分間リクエスト数(RPM)、分間トークン数(TPM)、障害率などのメトリクスをモニタリングし、アラートを設定
トークン消費量の追跡
対応モデル
モニタリング(標準および高度)およびアラート通知: モデル一覧
ログ機能: 以下は、現在対応しているモデルの一部です。
北京
qwen3-max、qwen3-max-2025-09-23、qwen3-max-2026-01-23、qwen3-max-preview
qwen-max、qwen-max-0919、qwen-max-2025-01-25、qwen-max-latest
qwen-plus、qwen-plus-2025-04-28、qwen-plus-2025-07-14、qwen-plus-2025-07-28、qwen-plus-2025-09-11、qwen-plus-2025-12-01、qwen-plus-latest
qwen-flash、qwen-flash-2025-07-28
qwen-turbo、qwen-turbo-2025-07-15、qwen-turbo-2025-04-28、qwen-turbo-latest
deepseek-v3.1、deepseek-v3.2、deepseek-v3.2-exp
qwen3-235b-a22b、qwen3-235b-a22b-instruct-2507、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b、qwen3-30b-a3b-instruct-2507、qwen3-30b-a3b-thinking-2507、qwen3-next-80b-a3b-instruct、qwen3-next-80b-a3b-thinking
qwen3-coder-480b-a35b-instruct、qwen3-coder-flash、qwen3-coder-flash-2025-07-28、qwen3-coder-plus、qwen3-coder-plus-2025-07-22、qwen3-coder-plus-2025-09-23
シンガポール
qwen3-max、qwen3-max-2025-09-23、qwen3-max-2026-01-23、qwen3-max-preview
qwen-max、qwen-max-2025-01-25、qwen-max-latest
qwen-plus、qwen-plus-2025-04-28、qwen-plus-2025-07-14、qwen-plus-2025-07-28、qwen-plus-2025-09-11、qwen-plus-2025-12-01、qwen-plus-latest
qwen-flash、qwen-flash-2025-07-28
qwen-turbo、qwen-turbo-2025-04-28、qwen-turbo-latest
qwen3-235b-a22b、qwen3-235b-a22b-instruct-2507、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b、qwen3-30b-a3b-instruct-2507、qwen3-30b-a3b-thinking-2507、qwen3-next-80b-a3b-instruct、qwen3-next-80b-a3b-thinking
qwen3-coder-480b-a35b-instruct、qwen3-coder-flash、qwen3-coder-flash-2025-07-28、qwen3-coder-plus、qwen3-coder-plus-2025-07-22、qwen3-coder-plus-2025-09-23
モデル実行のモニタリング
システムは、Alibaba Cloud アカウント配下のすべてのワークスペースから自動的にモデル呼び出しデータを収集します。直接または間接的なモデル呼び出しが発生すると、システムはそのデータを収集・同期し、モデルモニタリング (シンガポール)、モデルモニタリング (米国 (バージニア))、またはモデルモニタリング (中国 (北京))のリストに反映します。
リストのレコードは、モデルおよびワークスペースごとに生成されます。新しいモデルは、初回のデータ同期後に自動的にリストに追加されます。標準モニタリングにおけるデータ遅延は通常数時間です。分単位のデータ洞察が必要な場合は、高度モニタリングをご利用ください。
デフォルトワークスペースのメンバーは、すべてのワークスペースのモデル呼び出しデータを閲覧できます。サブワークスペースのメンバーは、当該ワークスペースのデータのみを閲覧でき、他のワークスペースへの切り替えはできません。
リストで対象のモデルを見つけ、[モニタリング] を [操作] 列でクリックして、以下の 4 種類のモニタリングメトリックをクエリします:
セキュリティ: 対話内容における非準拠コンテンツ(例:
Content Moderation エラー数)を検出します。コスト: モデルのコスト効率(例:
リクエストあたりの平均利用量)を評価します。パフォーマンス: モデルのパフォーマンス変化(例:
呼び出し時間、最初のトークン遅延)を確認します。エラー: モデルの安定性(例:
障害数、障害率)を評価します。
これらのメトリクスに基づいてアラートを作成することで、異常を迅速に検出し、対応できます。
呼び出し統計
このタブでは、セキュリティ、コスト、エラーに関連するメトリクス(例: 呼び出し数、障害数)を表示します。API キー、API キー、推論タイプ、および期間でフィルターできます。
制限エラー数: ステータスコード 429 が原因となる呼び出し失敗です。
Content Moderation エラー数: 入力または出力にポルノ、政治的コンテンツ、広告など、疑わしいセンシティブまたは高リスクなコンテンツが含まれており、Content Moderation サービス によりブロックされた場合です。
パフォーマンスメトリクス
このタブでは、RPM、TPM、呼び出し時間、最初のトークン遅延などのパフォーマンス関連メトリクスを表示します。
トークン消費量の表示
モデルパラメーターまたはシステムプロンプトの調整により、モデルのトークン消費量が変化します。コスト統計および詳細な管理のために、モデルモニタリングは以下のコストモニタリング機能を提供します。
概要: ワークスペースごとの過去のトークン消費量をまとめます。期間および API キーでさらに絞り込み可能です。
追跡: 各モデル呼び出しにおけるトークン消費量を記録します。
アラート通知: トークン消費量のしきい値を設定します。指定したモデルで異常な消費が発生した場合、システムが即時にアラートを送信します。
モデルの過去のトークン消費量を表示
過去 30 日間のトークン消費量を表示するには:
モデルモニタリング (シンガポール)、モデルモニタリング (バージニア)、またはモデルモニタリング (北京) ページのリストにモデルが表示されたら、[アクション] 列の [モニタリング] をクリックします。
「呼び出し統計」タブの 利用量 領域で、トークン消費量データを表示します。
それより古い利用データを表示するには、「費用とコスト」ページへ移動します。
特定の呼び出しのトークン消費量を表示
この機能は現在、一部のモデルでのみ、[中国(北京)]
Alibaba Cloud アカウント(または十分な権限を持つ RAM ユーザー)でログインします。対象ワークスペースのモデルモニタリング (中国 (北京))ページの右上隅にある モデルモニタリング構成 をクリックし、監査ログおよび推論ログの有効化手順に従います。
ログを有効化すると、システムはワークスペース内のすべてのモデル呼び出しの入力および出力を記録し始めます。呼び出しが発生してからログが記録されるまでの遅延は、分単位です。
モデルモニタリングリストで、対象のモデルを見つけ、[操作] 列の [ログ] をクリックします。
ログ タブには、モデルのリアルタイム推論呼び出し記録が表示されます。利用量 フィールドには、その呼び出しのトークン消費量が表示されます。
異常な消費に対するアラートの作成
詳細については、「積極的なアラートの設定」をご参照ください。
会話履歴(モデルログ)の表示
この機能は、現在 中国 (北京) リージョンの 一部のモデルでのみご利用いただけます。
モデルモニタリングにより、入力、出力、所要時間などを含むモデルとのすべての会話を表示できます。これはトラブルシューティングおよびコンテンツ監査のための重要なツールです。
ステップ 1:ログの有効化
Alibaba Cloud アカウント(または十分な権限を持つ RAM ユーザー)でログインします。対象ワークスペースのモデルモニタリング (中国 (北京))ページの右上隅にある モデルモニタリング構成 をクリックし、監査ログおよび推論ログの有効化手順に従います。
ログを有効化すると、システムはワークスペース内のすべてのモデル呼び出しの入力および出力を記録し始めます。呼び出しが発生してからログが記録されるまでの遅延は、分単位です。
記録を停止するには、モデルモニタリング構成で推論ログを無効化します。
ステップ 2:会話履歴の表示
モデルモニタリングリストで、対象のモデルを見つけ、[アクション] 列の [ログ] をクリックします。
ログ タブには、モデルのリアルタイム推論呼び出し記録が表示されます。リクエストおよびレスポンス フィールドには、それぞれ呼び出しの入力および出力が対応します。
積極的なアラートの設定
この機能は、現在シンガポールおよび中国 (北京) リージョンでのみご利用いただけます。
従来のアプリケーションログでは、タイムアウトやトークン消費量の急増といった「静かな障害」を検出することが困難です。モデルモニタリングでは、コスト、障害率、応答遅延などのメトリクスに対してアラートを設定できます。メトリクスが異常になると、システムが即時にアラートを送信します。
ステップ 1:高度モニタリングの有効化
Alibaba Cloud アカウント(または十分な権限を持つ RAM ユーザー)でログインします。モデルモニタリング (シンガポール または 中国 (北京))ページの対象ワークスペースで、右上隅の モデルモニタリング構成 をクリックします。
「高度モニタリング」領域で、パフォーマンスおよび利用量メトリクスモニタリング を手動で有効化します。
ステップ 2:アラートルールの作成
ダイアログボックスで、モデルおよびモニタリングテンプレートを選択します。設定を確認後、作成 をクリックします。指定したメトリクス(例: 呼び出し統計またはパフォーマンスメトリクス)が異常になった場合、システムがチームに通知します。
通知方法: ショートメッセージ、メール、電話、DingTalk グループチャットボット、WeCom チャットボット、Webhook をサポートします。
アラートレベル: レベルは Info、Warning、Error、Critical の 4 種類です。これらのレベルは追加・変更できません。レベルと通知チャネルのマッピングは以下のとおりです。
Critical:電話、ショートメッセージ、メール
Error:ショートメッセージ、メール
Warning:ショートメッセージ、メール
Info:メール
Grafana および自社構築アプリケーションとの統合
モデルモニタリングから取得されるモニタリングメトリクスデータは、お客様のプライベート Prometheus インスタンスに保存されます。標準の Prometheus HTTP API をサポートしており、Grafana や自社構築アプリケーションと統合して可視化分析を行うことができます。
ステップ 1:データソースの HTTP API アドレスの取得
高度モニタリングを有効化済みであることを確認します。
モデルモニタリング (シンガポール)、モデルモニタリング (米国 (バージニア))、またはモデルモニタリング (中国 (北京))ページの右上隅にある モデルモニタリング構成 をクリックします。「CloudMonitor Prometheus インスタンス」の右側にある 詳細の表示 をクリックします。
設定 ページで、クライアントのネットワーク環境(パブリックネットワークまたは VPC アクセス)に応じて対応する HTTP API アドレスをコピーします。

ステップ 2:Grafana または自社構築アプリケーションとの統合
自社構築アプリケーションとの統合
以下の例は、Prometheus HTTP API を使用してモニタリングデータを取得する方法を示しています。完全な API 使用方法については、Prometheus HTTP API ドキュメントをご参照ください。
例 1: Alibaba Cloud アカウント配下のすべてのワークスペースのすべてのモデルについて、指定された期間(UTC 時間で 2025 年 11 月 20 日の全日)におけるトークン消費量を、ステップサイズ
step=60sで照会します。クエリはmodel_usageです。例
パラメーター説明
GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query:
queryの値は、以下の「モニタリングメトリクス」リストに記載されている任意のメトリクス名に置き換え可能です。HTTP API:
{HTTP API}は、ステップ 1 で取得した HTTP API アドレスに置き換えてください。認証: Alibaba Cloud アカウントの
AccessKey:AccessKeySecretを連結し、Base64 エンコーディングした文字列をBasic <encoded_string>形式で指定します。例の値: Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
注意:AccessKey および AccessKey Secret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。
例 2: 例 1 を基に、特定のモデル(model=
qwen-plus)および特定のワークスペース(workspace_id=llm-nymssti2mzww****)のトークン消費量を取得するためのフィルターを追加します。例
説明
GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query: 複数のフィルター条件を
{}で囲み、カンマで区切ります(例:{workspace_id="value1",model="value2"})。以下は、サポートされているフィルター条件(LabelKey)の一覧です。
Grafana との統合
Grafana(自社構築または Alibaba Cloud Grafana サービス)にモデルモニタリングデータソースを追加します。この例では Grafana 10.x(英語版)を使用します。他のバージョンでも手順は同様です。詳細については、公式 Grafana ドキュメントをご参照ください。
1. データソースの追加:
管理者アカウントで Grafana にログインします。ページ左上隅の
アイコンをクリックし、 を選択します。+ 新規データソースの追加 をクリックし、データソースタイプとして Prometheus を選択します。設定 タブで、データソース情報を構成します。
名前: 任意の名前を入力します。
Prometheus サーバー URL: ステップ 1 で取得した HTTP API アドレスを入力します。
認証: 基本認証 を有効化し、ユーザー に Alibaba Cloud アカウントの AccessKey、パスワード に Alibaba Cloud アカウントの AccessKey Secret を設定します。
AccessKey および AccessKey Secret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。

タブの下部にある 保存してテスト をクリックします。
2. メトリクスの照会:
Grafana ページ左上隅の
アイコンをクリックし、左側のナビゲーションペインで ダッシュボード をクリックします。ダッシュボード ページで、 をクリックして、新しいダッシュボードを作成します。
+ 可視化の追加 をクリックし、先ほど作成したデータソースを選択します。
パネルの編集 ページで、クエリ タブをクリックします。A 領域で、_name_ および ラベルフィルター フィールドのメトリクス名を選択します。以下の例は、モデルトークン消費量
model_usageを照会する方法を示しています。例
説明

この例のクエリでは、
_name_の値(model_usage)を、以下の「モニタリングメトリクス」リストに記載されている任意のメトリクス名に置き換えられます。以下のラベルフィルターを追加して、クエリをさらに絞り込むことができます。
クエリの実行 をクリックします。
グラフにデータが正常に描画された場合、構成は成功です。そうでない場合は、以下の点を確認してください。1) HTTP API アドレス、AccessKey、AccessKey Secret が正しいか。2) ステップ 1 の Prometheus インスタンスにモニタリングデータがあるか。
モニタリングモードの比較モデルモニタリングは、標準モニタリング および 高度モニタリング の 2 つのモードを提供します。 基本モニタリング: この基本サービスは、Alibaba Cloud Model Studio の有効化時に自動的に有効化され、無効化できません。 高度モニタリング:モデルモニタリング (シンガポール)、モデルモニタリング (米国 (バージニア))、またはモデルモニタリング (中国 (北京))。高度モニタリングは無効化可能です。高度モニタリングの有効化後に生成された呼び出しデータのみが記録されます。
| ||||||||||||||||||||||||||||
クォータおよび制限事項
データ保持期間: 標準モニタリングおよび高度モニタリングのデータは、デフォルトで 30 日間保持されます。それより古い利用情報については、「費用とコスト」ページをご参照ください。
アラートテンプレートの制限: ワークスペースあたり最大 100 個のアラートテンプレートを作成できます。
API 制限: Prometheus HTTP API を使用して、モデルモニタリングからモニタリングメトリクスデータを取得します。
代替手段: 単一の呼び出しのトークン消費量を API 経由で取得するには、各モデル呼び出しのレスポンスの
usageフィールドからデータを抽出します。以下はフィールド構造の例です。詳細については、「Qwen API リファレンス」をご参照ください。{ "prompt_tokens": 3019, "completion_tokens": 104, "total_tokens": 3123, "prompt_tokens_details": { "cached_tokens": 2048 } }
課金
標準モニタリング: 無料です。
高度モニタリング: 有効化後、分単位のモニタリングデータが Cloud Monitor (CMS) に書き込まれ、課金されます。課金方法の詳細については、「Cloud Monitor (CMS) の課金概要」をご参照ください。
推論ログ: 有効化後、分単位のログデータが Simple Log Service (SLS) に書き込まれ、課金されます。課金方法の詳細については、「Simple Log Service (SLS) の課金概要」をご参照ください。
よくある質問
モデルを呼び出した後、モデルモニタリングに呼び出し数およびトークン消費量が表示されません。
以下の手順でトラブルシューティングを行ってください。
データ遅延: データ同期に十分な時間が経過しているか確認してください。標準モニタリングでは時単位、高度モニタリングでは分単位の遅延があります。
ワークスペース: サブワークスペースにいる場合、当該ワークスペースのデータのみが表示されます。すべてのデータを表示するには、デフォルトワークスペース に切り替えてください。
大規模言語モデルを呼び出した際にタイムアウトが発生する理由は何ですか。
主な原因は以下のとおりです。
出力が長すぎる: モデルが大量のコンテンツを生成し、合計時間がクライアントの待機制限を超えています。最初のトークンをより早く取得するために、ストリーミング出力 をご利用ください。
ネットワークの問題: クライアントと Alibaba Cloud サービス間のネットワーク接続が安定しているか確認してください。
RAM ユーザーに高度モニタリングを有効化するための権限を設定するにはどうすればよいですか。
手順は以下のとおりです。
RAM ユーザーに
AliyunBailianFullAccessグローバル管理(Alibaba Cloud Model Studio)権限 を付与します。RAM ユーザーに
Model Monitoring-Operator(またはAdministrator)ページ権限 を付与し、モデルモニタリングページでの書き込み操作を許可します。RAM ユーザーにサービスリンクロールを作成する権限を付与するためのシステムポリシーを作成し、RAM ユーザーにアタッチします。
RAM コンソール にログインします。左側のナビゲーションウィンドウで、 を選択し、ポリシーの作成 をクリックします。
スクリプトエディター をクリックし、以下の内容をポリシー編集画面に貼り付け、OK をクリックします。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }ポリシー名として
CreateServiceLinkedRoleを入力し、OK をクリックします。左側のナビゲーションウィンドウで、 を選択します。権限を付与する RAM ユーザーを見つけ、[操作] 列の [権限の追加] をクリックします。
ポリシー リストから、先ほど作成したポリシー(CreateServiceLinkedRole)を選択し、権限の確認 をクリックします。これで、RAM ユーザーはサービスリンクロールを作成する権限を取得しました。
すべての権限を設定した後、モデルモニタリング (シンガポール)、モデルモニタリング (米国 (バージニア))、またはモデルモニタリング (中国 (北京)) ページに戻り、RAM ユーザーで再度 高度モニタリング の有効化を試みてください。
RAM ユーザーに推論ログを有効化するための権限を設定するにはどうすればよいですか。
手順は以下のとおりです。
RAM ユーザーに
AliyunBailianFullAccessグローバル管理(Alibaba Cloud Model Studio)権限 を付与します。RAM ユーザーに
Model Monitoring-Operator(またはAdministrator)ページ権限 を付与し、モデルモニタリングページでの書き込み操作を許可します。RAM ユーザーにサービスリンクロールを作成する権限を付与するためのシステムポリシーを作成し、RAM ユーザーにアタッチします。
RAM コンソール にログインします。左側のナビゲーションウィンドウで、 を選択し、ポリシーの作成 をクリックします。
スクリプトエディター をクリックし、以下の内容をポリシー編集画面に貼り付け、OK をクリックします。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }ポリシー名として
CreateServiceLinkedRoleを入力し、OK をクリックします。左側のナビゲーションウィンドウで、 を選択します。権限を付与する RAM ユーザーを見つけ、[操作] 列の [権限の追加] をクリックします。
ポリシー リストから、先ほど作成したポリシー(CreateServiceLinkedRole)を選択し、権限の確認 をクリックします。これで、RAM ユーザーはサービスリンクロールを作成する権限を取得しました。
すべての権限を設定した後、モデルモニタリング (中国 (北京)) ページに戻り、RAM ユーザーで再度 推論ログ の有効化を試みてください。
付録
用語集
名詞 | 説明 |
リアルタイム推論 | すべての直接および間接的なモデル呼び出しを指し、主に以下のシナリオをカバーします。
|
バッチ推論 | リアルタイム応答を必要としないシナリオ向けの大規模データ処理で、OpenAI 互換バッチ API を使用してオフラインで実行されます。 |
