すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:モデル観測

最終更新日:Nov 28, 2025

モデル観測機能を使用して、以下の操作を実行します。

  • 呼び出しレコードの表示

  • トークンレイテンシー、呼び出し期間、1 分あたりのリクエスト数 (RPM)、1 分あたりのトークン数 (TPM)、失敗率などのメトリックのモニタリングとアラート作成

  • トークン消費量の追跡

モデルの可用性

モデルリスト内のすべてのモデルがサポートされています。

モデル操作のモニタリング

モデル推論サービスを有効化すると、Alibaba Cloud Model Studio は自動的に以下の 4 つのカテゴリのモニタリングメトリックをモデル観測ダッシュボードに追加します。

  • セキュリティContent Moderation エラーなど、会話における非準拠コンテンツを特定します。

  • コストリクエストあたりの平均トークン数など、モデルのコスト効率を評価します。

  • パフォーマンス呼び出し期間最初のトークンまでの時間など、モデルのパフォーマンスの変化を観測します。

  • エラー失敗失敗率など、モデルの安定性を判断します。

前述のメトリックに基づいてアラートを作成し、異常を迅速に検出して対処できます。

ステップ 1:モデル推論サービスの有効化

  1. Model Studio コンソールの上部に次のメッセージが表示されている場合は、Alibaba Cloud アカウントを使用してサービスを有効化し、無料の呼び出しクォータを取得してください。メッセージが表示されていない場合、サービスはすでに有効化されています。

    image

  2. 有効化後、システムは、お客様の Alibaba Cloud アカウント配下のすべてのワークスペースからモデル呼び出しデータを自動的に収集します。直接または間接のモデル呼び出しが発生すると、システムは関連データを自動的に収集し、モデル観測 (シンガポールまたは北京) リストに同期します。

    リストのレコードは、モデルとワークスペースごとに生成されます。新しいモデルは、最初のデータ同期が完了した後に自動的にリストに追加されます。基本モニタリングのレイテンシーは通常、時間単位です。分単位のデータインサイトを得るには、高度なモニタリングを使用してください。
    デフォルトワークスペースのメンバーは、すべてのワークスペースのモデル呼び出し詳細を表示できます。サブワークスペースのメンバーは、現在のワークスペースのデータのみを表示でき、他のワークスペースのデータに切り替えることはできません。

ステップ 2:モニタリングメトリックの表示

  1. モデルがリストに表示されたら、[アクション] 列の [モニター] をクリックして、呼び出し回数や失敗回数などの [呼び出し統計] を表示します。API キー推論タイプ、および時間範囲で統計をフィルターします。

    • レート制限エラー429 ステータスコードを持つ失敗を指します。

    • Content Moderation エラー: 入力または出力にポルノ、政治的なコンテンツ、広告など、センシティブまたはリスクが高いと疑われるコンテンツが含まれている場合に、Content Moderation サービスによってインターセプトされる呼び出しを指します。

  2. [パフォーマンスメトリック] タブでは、 RPM、TPM、 呼び出し時間、最初のトークンまでの時間などのメトリックを表示できます。

トークン消費量の表示

実際には、モデルパラメーターの調整、システムプロンプト、その他の操作によって、モデルのトークン消費量が変化する可能性があります。コストをきめ細かく計算および管理するために、モデル観測は以下のコストモニタリング機能を提供します。

  • サマリー:ワークスペースごとにモデルの過去のトークン消費量を要約します。時間範囲や API キーでさらにフィルターできます。

  • アラート機能:トークン消費量のしきい値を設定できます。指定されたモデルが異常な消費を示した場合、システムは直ちにアラートを送信します。

ステップ 1:モデル推論サービスの有効化

モデルサービスを有効化していることを確認してください。

ステップ 2:トークン消費量の表示またはアラートの作成

  • モデルの過去のトークン消費量を表示する

    • 過去 30 日間のトークン消費量を表示する:

      1. モデルが モデル観察 (シンガポール または 北京) リストに表示されたら、[操作] 列の [監視] をクリックします。

      2. [呼び出し統計] タブで、[呼び出し] セクションのトークン消費量データを表示します。

    • 過去の使用状況データを表示するには、[費用とコスト] ページでデータをクエリします。

  • 異常な消費に対するアラートを作成する

プロアクティブアラートの作成

タイムアウトやトークン消費量の急増など、サイレントなモデルの障害は、従来のアプリケーションログでは検出しにくいです。モデル観測を使用すると、コスト、失敗率、応答レイテンシーなどのモニタリングメトリックに対してアラートを設定できます。メトリックが異常になった場合、システムは直ちにアラートを送信します。

ステップ 1:高度なモニタリングの有効化

  1. モデル推論サービスを有効化していることを確認してください。

  2. Alibaba Cloud アカウント (または十分な権限を持つ RAM ユーザー) でログインします。対象のワークスペースの モデル観察 (シンガポールまたは北京) ページで、右上隅にある [モデル観察設定] をクリックします。

  3. [高度なモニタリング] エリアで、[パフォーマンスと使用状況メトリックのモニタリング] を手動で有効にできます。

ステップ 2:アラートルールの作成

  1. モデルアラート (シンガポール または 北京) ページで、右上の[アラー​​トルールの作成]をクリックします。

  2. ダイアログボックスで、モデルとモニタリングテンプレートを選択し、[作成] をクリックします。指定されたモニタリングメトリック (呼び出し統計やパフォーマンスメトリックなど) が異常になった場合、システムはチームに通知します。

    • 通知方法:サポートされている方法には、ショートメッセージ、メール、電話、DingTalk グループボット、WeCom ボット、Webhook が含まれます。

    • アラートレベル:利用可能なレベルは [一般][警告][エラー][緊急] です。これらのレベルは事前定義されており、変更できません。通知方法はすべてのレベルで同じです。チーム内で一貫した対応手順を確立することを推奨します。

Grafana またはカスタムアプリケーションへの接続

モデル観測からのモニタリングメトリックデータは、お客様専用の Prometheus インスタンスに保存されます。標準の Prometheus HTTP API をサポートしており、これを使用して Grafana やカスタムアプリケーションに接続し、視覚的な分析を行うことができます。

ステップ 1:データソースの HTTP API アドレスの取得

  1. 高度なモニタリングを有効化していることを確認してください。

  2. モデル観測 (シンガポール または 北京) ページで、右上隅にある [モデル観測設定] をクリックし、次に CloudMonitor Prometheus インスタンスの右側にある [詳細の表示] をクリックします。

  3. [設定] タブで、クライアントのネットワーク環境 (インターネットまたは内部ネットワーク (VPC)) に一致する HTTP API URL をコピーします。

    1

ステップ 2:Grafana またはカスタムアプリケーションへの接続

カスタムアプリケーションへの接続

次の例は、Prometheus HTTP API を使用してモニタリングデータを取得する方法を示しています。完全な API の使用方法の詳細については、Prometheus HTTP API リファレンスをご参照ください。

  • 例 1:指定された時間範囲 (2025 年 11 月 20 日終日、UTC) 内で、ステップサイズ step=60s で、ご利用の Alibaba Cloud アカウント配下のすべてのワークスペースのすべてのモデルのトークン消費量 (query=model_usage) をクエリします。

    パラメーターの説明

    GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query:query の値は、以下のモニタリングメトリックリストの任意のメトリック名に置き換えることができます。

      モニタリングメトリックの表示

      タイプ

      メトリック名

      説明

      呼び出し回数

      model_call_count

      モデルの総呼び出し回数

      呼び出し期間

      model_call_duration_total

      モデルの総呼び出し期間

      model_call_duration

      モデルの平均呼び出し期間

      model_call_duration_p50

      モデル呼び出しの p50 レイテンシー

      model_call_duration_p99

      モデル呼び出しの p99 レイテンシー

      model_first_token_duration_total

      最初のトークンまでの合計時間

      model_first_token_duration

      最初のトークンまでの平均時間

      model_first_token_duration_p50

      最初のトークンまでの p50 時間

      model_first_token_duration_p99

      最初のトークンまでの p99 時間

      最初のトークン以外のトークンあたりの時間

      model_generation_duration_per_token_total

      最初のトークン以外のトークンあたりの合計時間

      model_generation_duration_per_token

      最初のトークン以外のトークンあたりの平均時間

      model_generation_duration_per_token_p50

      最初のトークン以外のトークンあたりの p50 時間

      model_generation_duration_per_token_p99

      最初のトークン以外のトークンあたりの p99 時間

      使用量

      model_usage

      モデルの総使用量

    • HTTP API:{HTTP API}ステップ 1で取得した HTTP API アドレスに置き換えます。

    • Authorization:ご利用の Alibaba Cloud アカウントの AccessKey:AccessKeySecret を連結し、結果の文字列を Base64 エンコードして、Basic <encoded-string> の形式で指定します。

      値の例: Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
      注意:AccessKeyAccessKey Secret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。
  • 例 2例 1 に基づいて、フィルターを追加して、特定のワークスペース (workspace_id=llm-nymssti2mzww****) 内の特定のモデル (model=qwen-plus) のトークン消費量のみを取得します。

    説明

    GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query:複数のフィルター条件を {} で囲み、カンマで区切ります。例:{workspace_id="value1",model="value2"}。以下はサポートされているフィルター条件 (LabelKey) です。

      サポートされているフィルター条件の表示

      LabelKey

      説明

      user_id

      Alibaba Cloud アカウントの ID。

      RAM ユーザーの場合、これはプライマリアカウントの UID です。詳細については、ID の取得方法

      apikey_id

      API キーの ID であり、API キー自体ではありません。この ID は、[キー管理](国際エディション | 中国本土エディション) ページから取得できます。

      56

      説明

      apikey_id の値が -1 の場合、API 呼び出しではなく、Model Studio コンソールからの呼び出しであることを示します。

      workspace_id

      ワークスペースの ID。ID の取得方法をご確認ください。

      model

      モデル。

      protocol

      プロトコルタイプ。有効な値は次のとおりです。

      • HTTP:非ストリーミング HTTP。

      • SSE:ストリーミング HTTP。

      • WS:WebSocket プロトコル。

      sub_protocol

      サブプロトコル。有効な値は次のとおりです。

      status_code

      HTTP ステータスコード。

      この LabelKey は model_call_count モニタリングメトリックでのみサポートされています。

      error_code

      エラーコード。

      この LabelKey は model_call_count モニタリングメトリックでのみサポートされています。

      usage_type

      使用タイプ

      この LabelKey は model_usage モニタリングメトリックでのみサポートされています。

      指定可能な値:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

Grafana への接続

Grafana (セルフホストまたは Alibaba Cloud Grafana サービス) にモデル観測データソースを追加します。このトピックでは、Grafana 10.x (英語版) を例として使用します。他のバージョンの手順も同様です。詳細については、Grafana 公式ドキュメントをご参照ください。

  1. データソースの追加

    1. 管理者アカウントを使用して Grafana にログインします。ページの左上隅にある image アイコンをクリックし、[Administration] > [Data Sources] を選択します。[+ Add New Data Source] をクリックします。データソースタイプとして [Prometheus] を選択します。

    2. [Settings] タブで、データソース情報を設定します。

      • Name:カスタム名を入力します。

      • Prometheus server URLステップ 1で取得した HTTP API アドレスを入力します。

      • Auth[Basic Auth] を有効にし、[User] (ご利用の Alibaba Cloud アカウントのAccessKey) と [Password] (ご利用の Alibaba Cloud アカウントのAccessKey Secret) を設定します。

        AccessKey と AccessKey Secret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。

      image

    3. タブの下部にある [Save & Test] をクリックします。

  2. メトリックのクエリ

    1. Grafana ページの左上隅にある image アイコンをクリックし、左側のナビゲーションウィンドウで [Dashboards] をクリックします。

    2. [Dashboards] ページの右側にある [New] > [New Dashboard] をクリックして、新しいダッシュボードを作成します。

    3. [+ Add Visualization] をクリックし、先ほど作成したデータソースを選択します。

    4. [Edit Panel] ページで、[Query] タブをクリックします。[A] エリアで、[Label Filters] フィールドの [_name_] とメトリック名を選択します。たとえば、モデルのトークン消費量 model_usage をクエリするには、次のようにします。

      説明

      image

      この例では、_name_ (model_usage) の値は、モニタリングメトリックリストの任意のメトリック名に置き換えることができます。

      モニタリングメトリックの表示

      タイプ

      メトリック名

      説明

      呼び出し回数

      model_call_count

      モデルの総呼び出し回数

      呼び出し期間

      model_call_duration_total

      モデルの総呼び出し期間

      model_call_duration

      モデルの平均呼び出し期間

      model_call_duration_p50

      モデル呼び出しの p50 レイテンシー

      model_call_duration_p99

      モデル呼び出しの p99 レイテンシー

      model_first_token_duration_total

      最初のトークンまでの合計時間

      model_first_token_duration

      最初のトークンまでの平均時間

      model_first_token_duration_p50

      最初のトークンまでの p50 時間

      model_first_token_duration_p99

      最初のトークンまでの p99 時間

      最初のトークン以外のトークンあたりの時間

      model_generation_duration_per_token_total

      最初のトークン以外のトークンあたりの合計時間

      model_generation_duration_per_token

      最初のトークン以外のトークンあたりの平均時間

      model_generation_duration_per_token_p50

      最初のトークン以外のトークンあたりの p50 時間

      model_generation_duration_per_token_p99

      最初のトークン以外のトークンあたりの p99 時間

      使用量

      model_usage

      モデルの総使用量

      クエリをさらに絞り込むために、以下のラベルフィルターを追加できます。

      サポートされているフィルター条件の表示

      LabelKey

      説明

      user_id

      Alibaba Cloud アカウントの ID。

      RAM ユーザーの場合、これはプライマリアカウントの UID です。詳細については、ID の取得方法

      apikey_id

      API キーの ID であり、API キー自体ではありません。この ID は、[キー管理](国際版 | 中国本土版) ページで取得できます。

      56

      説明

      apikey_id の値が -1 の場合、API 呼び出しではなく、Model Studio コンソールからの呼び出しであることを示します。

      workspace_id

      ワークスペースの ID。ID の取得方法をご確認ください。

      model

      モデル。

      protocol

      プロトコルタイプ。有効な値は次のとおりです。

      • HTTP:非ストリーミング HTTP。

      • SSE:ストリーミング HTTP。

      • WS:WebSocket プロトコル。

      sub_protocol

      サブプロトコル。有効な値は次のとおりです。

      status_code

      HTTP ステータスコード。

      この LabelKey は model_call_count モニタリングメトリックでのみサポートされています。

      error_code

      エラーコード。

      この LabelKey は model_call_count モニタリングメトリックでのみサポートされています。

      usage_type

      使用タイプ

      この LabelKey は model_usage モニタリングメトリックでのみサポートされています。

      指定可能な値:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

    5. [Run Queries] をクリックします。

      チャートにデータが正常にレンダリングされた場合、設定は成功です。そうでない場合は、以下を確認してください:1) HTTP API アドレス、AccessKey、および AccessKey Secret が正しいこと。2) ステップ 1の Prometheus インスタンスにモニタリングデータが含まれていること。

モニタリングモードの比較

モデル観測は、[基本モニタリング][高度なモニタリング] の 2 つのモニタリングモードを提供します。

[基本モニタリング]この基本サービスは、モデルサービスが有効化されると自動的に有効になり、無効にすることはできません。
高度なモニタリング: 対象のワークスペースの [モデル監視] (シンガポール または 北京) ページで、Alibaba Cloud アカウント または十分な権限を持つ RAM ユーザー

項目

[基本モニタリング] (デフォルト)

[高度なモニタリング] (手動での有効化が必要)

データレイテンシー

時間単位

分単位

呼び出し統計の表示

サポート

サポート

失敗詳細の表示

非サポート

サポート

パフォーマンスメトリックの表示

サポート

サポート

適用範囲

Alibaba Cloud アカウント配下のすべてのワークスペース

有効化されたワークスペースにのみ適用

課金

無料

有料

クォータと制限

  • データ保持期間: デフォルトでは、基本モニタリングと高度なモニタリングの両方のデータは 30 日間保持されます。30 日を超える使用量情報を照会するには、[費用とコスト] ページに移動します。

  • アラートテンプレートの制限:各ワークスペースで最大 100 個のアラートテンプレートを作成できます。

  • API 制限Prometheus HTTP API を通じて、モデル観測のモニタリングメトリックデータをクエリできます。

    • 回避策:API を通じて単一の呼び出しのトークン消費量を取得するには、各モデル呼び出しのレスポンスの usage フィールドから現在の呼び出しデータを抽出できます。このフィールドは次の構造を持っています。詳細については、Qwen API リファレンスをご参照ください。

      {
        "prompt_tokens": 3019,
        "completion_tokens": 104,
        "total_tokens": 3123,
        "prompt_tokens_details": {
          "cached_tokens": 2048
        }
      }

課金

  • 基本モニタリング:無料です。

  • 高度なモニタリング:この機能を有効にすると、分単位のモニタリングデータが CloudMonitor (CMS) サービスに書き込まれ、追加料金が発生します。 課金方法の詳細については、「CloudMonitor の課金概要」をご参照ください。

よくある質問

モデルを呼び出した後、モデル観測で呼び出し回数とトークン消費量が見つからないのはなぜですか?

この問題は、次のようにトラブルシューティングできます。

  1. データレイテンシー:データ同期に十分な時間待機したことを確認してください。データは基本モニタリングでは時間単位で、高度なモニタリングでは 1 分ごとに同期されます。

  2. ワークスペース:サブワークスペースにいる場合、そのワークスペースのデータしか表示できません。すべてのデータを表示するには、デフォルトワークスペースに切り替えてください。

大規模言語モデルを呼び出す際にタイムアウトが発生する考えられる理由は何ですか?

一般的な理由には以下が含まれます。

  • 長い出力:モデルが生成するコンテンツが多すぎて、合計時間がクライアントの待機制限を超えてしまいます。ストリーミング出力メソッドを使用して、最初のトークンをより迅速に取得できます。

  • ネットワークの問題:クライアントと Alibaba Cloud サービス間のネットワーク接続が安定しているか確認してください。

RAM ユーザーが高度なモニタリングを有効にするための権限を設定するにはどうすればよいですか?

次の手順に従ってください。

  1. RAM ユーザーに AliyunBailianFullAccess グローバル管理権限を付与します。

  2. RAM ユーザーに ModelObservation-FullAccess (または Administrator) ページ権限を割り当て、モデル観測ページでの書き込み操作を許可します。

  3. RAM ユーザーに AliyunCloudMonitorFullAccess システムポリシーを付与します

  4. RAM ユーザーがサービスリンクロールを作成できるようにするシステムポリシーを作成して付与します。

    1. RAM コンソールにログインします。左側のナビゲーションウィンドウで、[権限] > [ポリシー] を選択します。次に、[ポリシーの作成] をクリックします。

    2. [JSON] をクリックし、次の内容をポリシーエディターに貼り付け、[OK] をクリックします。

      {
          "Version": "1",
          "Statement": [
              {
                  "Action": "ram:CreateServiceLinkedRole",
                  "Resource": "*",
                  "Effect": "Allow"
              }
          ]
      }
    3. アクセスポリシー名として CreateServiceLinkedRole を入力し、[OK] をクリックします。

    4. 左側のナビゲーションウィンドウで、[ID] > [ユーザー] を選択します。権限を付与したい RAM ユーザーを見つけ、[アクション] 列の [権限の追加] をクリックします。

    5. アクセスポリシーリストから、先ほど作成したアクセスポリシー (CreateServiceLinkedRole) を選択し、[権限の付与] をクリックします。これで、RAM ユーザーはサービスリンクロールを作成する権限を持ちます。

  5. 前述のすべての権限設定を完了したら、モデル監視 (シンガポール または 北京) ページに戻り、RAM ユーザーを使用して、再度 [高度なモニタリング] を有効にしてみてください。

付録

用語集

用語

説明

リアルタイム推論

モデルへのすべての直接的および間接的な呼び出し。これには、以下のシナリオで行われた呼び出しが含まれます。

  • DashScope SDK または OpenAI 互換インターフェイスを介した API 呼び出し

  • プレイグラウンド

  • エージェント、ワークフロー、エージェントオーケストレーションアプリケーションなど、テストまたは公開状態のModel Studio アプリケーション。これには、LLM ノード、意図分類ノード、エージェントグループノードなど、これらのアプリケーション内でモデル呼び出しを行う任意のノードも含まれます。

  • アシスタント API 呼び出し

  • アプリケーション呼び出し

バッチ推論

リアルタイム応答を必要としないシナリオ向けの、OpenAI 互換バッチインターフェイスを使用した大規模なオフラインデータ処理。