モデルモニタリングを使用すると、以下の操作を実行できます。
-
呼び出し記録の表示
-
トークン遅延、呼び出し時間、分あたりのリクエスト数(RPM)、分あたりのトークン数(TPM)、失敗率などのメトリクスを監視し、アラートを設定
-
トークン使用量の追跡
サポート対象のモデル
-
モニタリング(基本および高度)およびアラート機能: モデル一覧
-
ログ記録: 以下のモデルが現在ログ記録をサポートしています。
北京
-
qwen3-max、qwen3-max-2025-09-23、qwen3-max-2026-01-23、qwen3-max-preview
-
qwen-max、qwen-max-0919、qwen-max-2025-01-25、qwen-max-latest
-
qwen-plus、qwen-plus-2025-04-28、qwen-plus-2025-07-14、qwen-plus-2025-07-28、qwen-plus-2025-09-11、qwen-plus-2025-12-01、qwen-plus-latest
-
qwen-flash、qwen-flash-2025-07-28
-
qwen-turbo、qwen-turbo-2025-07-15、qwen-turbo-2025-04-28、qwen-turbo-latest
-
deepseek-v3.1、deepseek-v3.2、deepseek-v3.2-exp
-
qwen3-235b-a22b、qwen3-235b-a22b-instruct-2507、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b、qwen3-30b-a3b-instruct-2507、qwen3-30b-a3b-thinking-2507、qwen3-next-80b-a3b-instruct、qwen3-next-80b-a3b-thinking
-
qwen3-coder-480b-a35b-instruct、qwen3-coder-flash、qwen3-coder-flash-2025-07-28、qwen3-coder-plus、qwen3-coder-plus-2025-07-22、qwen3-coder-plus-2025-09-23
シンガポール
-
qwen3-max、qwen3-max-2025-09-23、qwen3-max-2026-01-23、qwen3-max-preview
-
qwen-max、qwen-max-2025-01-25、qwen-max-latest
-
qwen-plus、qwen-plus-2025-04-28、qwen-plus-2025-07-14、qwen-plus-2025-07-28、qwen-plus-2025-09-11、qwen-plus-2025-12-01、qwen-plus-latest
-
qwen-flash、qwen-flash-2025-07-28
-
qwen-turbo、qwen-turbo-2025-04-28、qwen-turbo-latest
-
qwen3-235b-a22b、qwen3-235b-a22b-instruct-2507、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b、qwen3-30b-a3b-instruct-2507、qwen3-30b-a3b-thinking-2507、qwen3-next-80b-a3b-instruct、qwen3-next-80b-a3b-thinking
-
qwen3-coder-480b-a35b-instruct、qwen3-coder-flash、qwen3-coder-flash-2025-07-28、qwen3-coder-plus、qwen3-coder-plus-2025-07-22、qwen3-coder-plus-2025-09-23
-
モデル運用のモニタリング
システムは、Alibaba Cloud アカウント配下のすべてのワークスペースにおけるモデル呼び出しデータを自動的に収集します。モデルが直接または間接的に呼び出されると、システムはそのデータをモデルモニタリング (シンガポール)、モデルモニタリング (米国東部)、またはモデルモニタリング (北京)一覧へ収集・同期します。
一覧はモデルおよびワークスペースごとにデータをグループ化します。新しいモデルは、初回のデータ同期完了後に一覧に表示されます。基本モニタリングでは、1 時間の遅延があります。分単位のインサイトが必要な場合は、高度モニタリングをご利用ください。
デフォルトでは、ルートワークスペースのメンバーはすべてのワークスペースにわたるモデル呼び出しを閲覧できます。子ワークスペースのメンバーは、自身のワークスペースのデータのみを閲覧できます。
一覧から対象のモデルを見つけ、操作をクリックしてからモニタリングをクリックすると、以下の 4 カテゴリのメトリクスを表示できます。
-
セキュリティ: 会話における違反を検出します(例:
コンテンツモデレーションエラー)。 -
コスト: コスト効率を評価します(例:
リクエストあたりの平均トークン数)。 -
パフォーマンス: パフォーマンスの変化を追跡します(例:
呼び出し時間および最初のトークン遅延)。 -
エラー: 安定性を評価します(例:
失敗回数および失敗率)。
これらのメトリクスに基づいてアラートを作成することで、問題を迅速に検出し解決できます。
呼び出し統計
このタブでは、呼び出し回数および失敗回数などのセキュリティ、コスト、エラーに関するメトリクスを表示します。結果はAPI キー、推論タイプ、および期間でフィルターできます。
-
レート制限エラー回数: HTTP ステータスコード 429により失敗した呼び出しです。
-
コンテンツモデレーションエラー回数: 入力または出力にポルノ、政治的コンテンツ、広告などセンシティブまたは高リスクなコンテンツが含まれている場合、Content Moderation サービスによってブロックされます。
パフォーマンスメトリクス
このタブでは、RPM、TPM、呼び出し時間、最初のトークン遅延などのパフォーマンスメトリクスを表示します。
トークン使用量の表示
モデルパラメーターまたはシステムプロンプトの調整は、トークン使用量に影響を与えます。正確なコストの追跡と管理を支援するため、モデルモニタリングは以下のコスト関連機能を提供します。
-
概要: ワークスペースごとの過去のトークン使用量をまとめます。さらに、期間および API キーで絞り込み可能です。
-
追跡: 各モデル呼び出しにおけるトークン使用量を記録します。
-
アラート: トークン使用量のしきい値を設定できます。使用量がしきい値を超えると、システムからアラートが送信されます。
過去のトークン使用量の表示
-
過去 30 日間のトークン消費量を表示できます。
-
モデルがモデルモニタリング (シンガポール)、モデルモニタリング (米国東部)、またはモデルモニタリング (北京)一覧に表示された後、Actionsをクリックしてから監視をクリックします。
-
「呼び出し統計」タブで、「使用量」セクションにトークン使用量を表示できます。
-
-
それより古い使用量を表示するには、「費用とコスト」ページへ移動します。
単一の呼び出しにおけるトークン使用量の表示
この機能は、China (Beijing)リージョンおよび選択されたモデルでのみ利用可能です。
-
Alibaba Cloud アカウント(または十分な権限を持つ RAM ユーザー)でログインします。対象のワークスペースにおいて、モデルモニタリング (北京)ページの右上隅にあるモデル監視設定をクリックし、指示に従って監査ログおよび推論ログを有効化します。
この機能を有効化すると、ワークスペース内のすべてのモデル呼び出しの入力および出力が記録されるようになります。ログは数分以内に表示されます。データの同期には数分かかる場合があります。
-
モデルモニタリング一覧から対象のモデルを見つけ、Actionsをクリックしてからログをクリックします。
-
ログタブにはリアルタイム推論の呼び出しが表示されます。使用量フィールドには、各呼び出しにおけるトークン使用量が表示されます。
異常な使用量に対するアラートの作成
-
詳細については、「プロアクティブなアラートの設定」をご参照ください。
過去の会話(モデルログ)の表示
この機能は、China (Beijing)リージョンおよび選択されたモデルでのみ利用可能です。
モデルモニタリングでは、入力、出力、遅延を含むすべての会話を表示できます。これにより、問題のトラブルシューティングやコンテンツの監査が可能になります。
ステップ 1:ログの有効化
Alibaba Cloud アカウント(または十分な権限を持つ RAM ユーザー)でログインします。対象のワークスペースにおいて、モデルモニタリング (北京) ページの右上隅にあるモデル監視設定をクリックし、指示に従って監査ログおよび推論ログを順に有効化します。
この機能を有効化すると、ワークスペース内のすべてのモデル呼び出しの入力および出力が記録されるようになります。ログは数分以内に表示されます。データの同期には数分かかる場合があります。
ログ記録を停止するには、モデルモニタリング構成で推論ログを無効化できます。
ステップ 2:過去の会話の表示
-
モデルモニタリング一覧から対象のモデルを見つけ、Actionsをクリックしてからログをクリックします。
-
ログタブにはリアルタイム推論の呼び出しが表示されます。リクエストとレスポンスフィールドには、各呼び出しの入力および出力が表示されます。
プロアクティブなアラートの設定
この機能は、シンガポールおよび中国 (北京) リージョンでのみ利用可能です。
モデルは、タイムアウトやトークン使用量の急増などにより、静かに失敗することがあります。従来のアプリケーションログでは、こうした問題を見逃すことがあります。モデルモニタリングでは、コスト、失敗率、応答遅延などのメトリクスに対してアラートを設定できます。異常が発生すると、システムから即時にアラートが送信されます。
ステップ 1:高度モニタリングの有効化
-
Alibaba Cloud アカウント(または十分な権限を持つ RAM ユーザー)でログインし、対象のワークスペースにおいてモデルモニタリング (シンガポール または 北京)ページへ移動します。その後、右上隅にあるモデル監視設定をクリックします。
-
「高度モニタリング」セクションで、パフォーマンスと使用量指標の監視をオンにします。
ステップ 2:アラートルールの作成
-
モデルアラート (シンガポール または 北京)ページへ移動します。右上隅にあるCreate Alert Ruleをクリックします。
-
ダイアログボックスで、モデルおよびモニタリングテンプレートを選択します。「作成」をクリックします。選択したメトリクス(例:呼び出し統計またはパフォーマンスメトリクス)に異常が検出されると、システムからチームへ通知されます。
-
通知方法: SMS、メール、電話、DingTalk グループロボット、WeCom ロボット、Webhook。
-
アラートレベル: General、Warning、Error、Urgent。レベルの追加または編集はできません。通知チャネルは以下の通りレベルにマッピングされます。
-
重大:電話、SMS、メール
-
エラー:SMS、メール
-
警告:SMS、メール
-
情報:メール
-
-
Grafana およびカスタムアプリケーションとの統合
モデルモニタリングは、メトリクスをお客様のプライベート Prometheus インスタンスに保存します。標準の Prometheus HTTP API をサポートしているため、Grafana やカスタムアプリケーションと統合して可視化分析を行うことができます。
ステップ 1:HTTP API エンドポイントの取得
-
高度モニタリングを有効化済みであることを確認します。
-
モデルモニタリング (シンガポール)、モデルモニタリング (米国東部)、またはモデルモニタリング (北京)ページへ移動します。右上隅にあるモデル監視設定をクリックします。クラウドモニター Prometheus インスタンスの横にある詳細を見るをクリックします。
-
設定ページで、お客様のクライアントネットワーク環境(例:パブリックネットワークまたは VPC アクセス)に対応する HTTP API エンドポイントをコピーします。

ステップ 2:Grafana またはカスタムアプリケーションとの統合
カスタムアプリケーションとの統合
以下に、Prometheus HTTP API を使用してモニタリングデータを取得する例を示します。詳細については、Prometheus HTTP API ドキュメントをご参照ください。
-
例 1: 指定された期間(2025 年 11 月 20 日、UTC)における、Alibaba Cloud アカウント配下のすべてのワークスペースのすべてのモデルのトークン使用量をクエリします。ステップサイズは
60 秒です。クエリにはmodel_usageを使用します。例
パラメーターの説明
GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)-
query:
queryを、以下の「モニタリングメトリクス」リストから任意のメトリクス名に置き換えます。 -
HTTP API:
{HTTP API}を、ステップ 1でコピーしたエンドポイントに置き換えます。 -
Authorization: Alibaba Cloud アカウントの
AccessKey:AccessKeySecretを連結し、Base64 エンコードした結果をBasic encoded-stringとして渡します。例の値: Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
注意:AccessKey および AccessKey Secret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。
-
-
例 2: この例は、例 1 を拡張し、特定のモデル(model=
qwen-plus)およびワークスペース(workspace_id=llm-nymssti2mzww****)のトークン消費量を取得するフィルターを追加しています。例
説明
GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)-
query: 複数のフィルターを
{}で囲み、カンマで区切ります(例:{workspace_id="value1",model="value2"})。サポートされるフィルター(LabelKeys)の一覧については、以下の表をご参照ください。
-
Grafana との統合
Grafana(セルフマネージドまたは Alibaba Cloud Grafana)にモデルモニタリングをデータソースとして追加できます。この例では Grafana 10.x(英語版)を使用します。他のバージョンでも手順は同様です。詳細については、Grafana ドキュメントをご参照ください。
-
データソースの追加:
-
管理者として Grafana にログインします。左上隅の
アイコンをクリックし、を選択します。+ 新規データソースの追加をクリックし、Prometheus を選択します。 -
設定タブで、データソースを構成します。
-
名前: カスタム名を入力します。
-
Prometheus サーバー URL: ステップ 1でコピーした HTTP API エンドポイントを貼り付けます。
-
Auth: 基本認証をオンにします。ユーザーに Alibaba Cloud アカウントの AccessKey を、パスワードに Alibaba Cloud アカウントの AccessKey Secret を設定します。
AccessKey および AccessKeySecret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。

-
-
タブの下部にある保存してテストをクリックします。
-
-
メトリクスのクエリ:
-
Grafana の左上隅の
アイコンをクリックし、左側のナビゲーションウィンドウでダッシュボードをクリックします。 -
ダッシュボードページで、をクリックして、新しいダッシュボードを作成します。
-
+ 可視化の追加をクリックし、先ほど作成したデータソースを選択します。
-
パネルの編集ページで、クエリタブをクリックします。A セクションでラベルフィルターをクリックします。_name_ およびメトリクス名を選択します。たとえば、トークン使用量(
model_usage)をクエリするには、以下の手順を実行します。例
説明

画像では、
_name_(model_usage)の値を、以下の「モニタリングメトリクス」リストから任意のメトリクス名に置き換えます。結果を絞り込むために、さらにラベルフィルターを追加できます。
-
クエリの実行をクリックしてデータを取得します。
チャートが正常にレンダリングされた場合、構成は正しく設定されています。レンダリングされない場合は、HTTP API エンドポイント、AccessKey、AccessKeySecret が正しいか、およびステップ 1の Prometheus インスタンスにモニタリングデータが存在するかを確認してください。
-
モニタリングモードの比較
モデルモニタリングでは、Basic MonitoringおよびAdvanced Monitoringの 2 つのモニタリングモードを提供します。
Basic Monitoring: この基本サービスは、Alibaba Cloud Model Studio を有効化すると自動的に有効化され、無効化することはできません。
Advanced Monitoringまたは十分な権限を持つ RAM ユーザーが、対象のワークスペースにおいてモデルモニタリング (シンガポール)、モデルモニタリング (バージニア)、またはモデルモニタリング (北京)ページで手動で有効化する必要があります。この機能は無効化可能です。高度モニタリングが有効化された後に生成された呼び出しデータのみが記録されます。
|
項目 |
一般モニタリング (デフォルト) |
高度モニタリング (手動での有効化が必要) |
|
|
データ遅延 |
時間単位 |
分単位 |
|
|
呼び出し統計の表示 |
サポート |
サポート |
|
|
失敗した呼び出し(詳細)の表示 |
サポートなし |
サポート |
|
|
パフォーマンスメトリクスの表示 |
サポート |
サポート |
|
|
適用範囲 |
Alibaba Cloud アカウント配下のすべてのワークスペース |
有効化されたワークスペース内でのみ有効 |
|
|
課金 |
無料 |
有料 |
|
クォータおよび制限事項
-
データ保持期間: 一般モニタリングおよび高度モニタリングのデータは、デフォルトで 30 日間保持されます。この期間より古い使用量データを照会するには、「費用とコスト」ページへ移動します。
-
アラートテンプレートの制限: ワークスペースあたり最大 100 個のアラートテンプレートを作成できます。
-
API 制限: Prometheus HTTP API を使用してモニタリングメトリクスを照会できます。
-
代替手法: 単一の呼び出しにおけるトークン消費量を API 経由で取得するには、各モデル呼び出しのレスポンス内の
usageフィールドから現在の呼び出しデータを抽出できます。以下の例は、このフィールドの構造を示しています。詳細については、「Qwen API リファレンス」をご参照ください。{ "prompt_tokens": 3019, "completion_tokens": 104, "total_tokens": 3123, "prompt_tokens_details": { "cached_tokens": 2048 } }
-
課金情報
-
一般モニタリング: 無料です。
-
高度モニタリング: 有効化すると、分単位のモニタリングデータがCloud Monitor CMS サービスに書き込まれ、課金対象となります。課金方法の詳細については、「Cloud Monitor CMS の課金概要」をご参照ください。
-
推論ログ: この機能を有効化すると、分単位のログデータがSimple Log Service (SLS) に書き込まれ、課金対象となります。課金方法の詳細については、「Simple Log Service (SLS) の課金概要」をご参照ください。
よくある質問
モデルを呼び出した後、モデルモニタリングで呼び出し回数および消費トークン数が見つからないのはなぜですか?
以下の手順でトラブルシューティングを行います。
-
データ遅延: データ同期に十分な時間が経過したかを確認します。一般モニタリングでは 1 時間の遅延があり、高度モニタリングでは数分の遅延があります。
-
ワークスペース: 子ワークスペースにいる場合、そのワークスペース内のデータのみを閲覧できます。すべてのデータを閲覧するには、デフォルトワークスペースに切り替えてください。
大規模言語モデル(LLM)を呼び出す際にタイムアウトが発生する可能性のある原因は何ですか?
一般的な原因は以下のとおりです。
-
出力が長い: モデルが大量のコンテンツを生成し、合計時間がクライアントの待機時間制限を超えてしまう場合があります。ストリーミング出力を使用すると、最初のトークンをより速く取得できます。
-
ネットワークの問題: クライアントと Alibaba Cloud サービス間のネットワーク接続が安定しているかを確認します。
RAM ユーザーに高度モニタリングを有効化するための権限を設定するにはどうすればよいですか?
手順は以下のとおりです。
-
RAM ユーザーに、
AliyunBailianFullAccessグローバル管理(Alibaba Cloud Model Studio)権限を付与します。 -
RAM ユーザーに、
モデルモニタリング – 操作(または管理者)ページ権限を付与し、モデルモニタリングページでの書き込み操作を許可します。 -
RAM ユーザーにAliyunCloudMonitorFullAccess システムポリシーを付与します。
-
サービスリンクロールの作成のためのシステムポリシーを作成し、RAM ユーザーに付与します。
-
Resource Access Management (RAM) コンソールにログインします。左側のナビゲーションウィンドウで、を選択します。その後、アクセスポリシーの作成をクリックします。
-
スクリプトエディターをクリックし、以下の内容をポリシー編集器に貼り付け、OK をクリックします。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] } -
アクセスポリシー名に
CreateServiceLinkedRoleを入力し、OK をクリックします。 -
左側のナビゲーションウィンドウで、 を選択します。承認する RAM ユーザーを見つけ、[権限の追加] を [操作] 列でクリックします。
-
アクセスポリシー一覧から、先ほど作成したポリシー(CreateServiceLinkedRole)を選択し、新しい承認の確認をクリックします。これにより、RAM ユーザーはサービスリンクロールを作成する権限を取得します。
-
-
すべての権限を設定した後、モデルモニタリング (シンガポール)、モデルモニタリング (バージニア)、またはモデルモニタリング (北京)ページに戻ります。その後、RAM ユーザーを使用して高度モニタリングの有効化を再試行します。
RAM ユーザーに推論ログを有効化するための権限を設定するにはどうすればよいですか?
手順は以下のとおりです。
-
RAM ユーザーに、
AliyunBailianFullAccessグローバル管理(Alibaba Cloud Model Studio)権限を付与します。 -
RAM ユーザーに、
モデルモニタリング-操作(または管理者)ページ権限を付与し、モデルモニタリングページでの書き込み操作を許可します。 -
RAM ユーザーにAliyunLogFullAccess システムポリシーを設定します。
-
サービスリンクロールの作成のためのシステムポリシーを作成し、RAM ユーザーに付与します。
-
Resource Access Management (RAM) コンソールにログインします。左側のナビゲーションウィンドウで、を選択します。その後、アクセスポリシーの作成をクリックします。
-
スクリプトエディターをクリックし、以下の内容をポリシー編集器に貼り付け、OK をクリックします。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] } -
CreateServiceLinkedRoleをアクセスポリシー名として入力し、OK をクリックします。 -
左側のナビゲーションウィンドウで、 を選択します。権限を付与する RAM ユーザーを探し、Actions 列の Add Permission をクリックします。
-
アクセスポリシー一覧から、先ほど作成したポリシー(CreateServiceLinkedRole)を選択し、新しい承認の確認をクリックします。これにより、RAM ユーザーはサービスリンクロールを作成する権限を取得します。
-
-
すべての権限を設定した後、モデルモニタリング (北京)ページに戻ります。その後、RAM ユーザーを使用して推論ログの有効化を再試行します。
付録
用語集
|
名詞 |
定義 |
|
リアルタイム推論 |
モデルに対する直接的または間接的な呼び出しを意味します。以下のシナリオが含まれます。
|
|
Batches |
リアルタイム応答が不要なシナリオにおいて、OpenAI 互換バッチ(ファイル入力) インターフェイスを使用して、オフラインで大規模なデータ処理を実行します。 |
