すべてのプロダクト
Search
ドキュメントセンター

Alibaba Cloud Model Studio:モデルモニタリング

最終更新日:Feb 06, 2026

モデルモニタリング機能を以下のようにご利用いただけます。

  • 呼び出し記録の表示

  • トークン遅延、呼び出し時間、分間リクエスト数(RPM)、分間トークン数(TPM)、障害率などのメトリクスをモニタリングし、アラートを設定

  • トークン消費量の追跡

対応モデル

  • モニタリング(標準および高度)およびアラート通知: モデル一覧

  • ログ機能: 以下は、現在対応しているモデルの一部です。

    北京

    • qwen3-max、qwen3-max-2025-09-23、qwen3-max-2026-01-23、qwen3-max-preview

    • qwen-max、qwen-max-0919、qwen-max-2025-01-25、qwen-max-latest

    • qwen-plus、qwen-plus-2025-04-28、qwen-plus-2025-07-14、qwen-plus-2025-07-28、qwen-plus-2025-09-11、qwen-plus-2025-12-01、qwen-plus-latest

    • qwen-flash、qwen-flash-2025-07-28

    • qwen-turbo、qwen-turbo-2025-07-15、qwen-turbo-2025-04-28、qwen-turbo-latest

    • deepseek-v3.1、deepseek-v3.2、deepseek-v3.2-exp

    • qwen3-235b-a22b、qwen3-235b-a22b-instruct-2507、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b、qwen3-30b-a3b-instruct-2507、qwen3-30b-a3b-thinking-2507、qwen3-next-80b-a3b-instruct、qwen3-next-80b-a3b-thinking

    • qwen3-coder-480b-a35b-instruct、qwen3-coder-flash、qwen3-coder-flash-2025-07-28、qwen3-coder-plus、qwen3-coder-plus-2025-07-22、qwen3-coder-plus-2025-09-23

    シンガポール

    • qwen3-max、qwen3-max-2025-09-23、qwen3-max-2026-01-23、qwen3-max-preview

    • qwen-max、qwen-max-2025-01-25、qwen-max-latest

    • qwen-plus、qwen-plus-2025-04-28、qwen-plus-2025-07-14、qwen-plus-2025-07-28、qwen-plus-2025-09-11、qwen-plus-2025-12-01、qwen-plus-latest

    • qwen-flash、qwen-flash-2025-07-28

    • qwen-turbo、qwen-turbo-2025-04-28、qwen-turbo-latest

    • qwen3-235b-a22b、qwen3-235b-a22b-instruct-2507、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b、qwen3-30b-a3b-instruct-2507、qwen3-30b-a3b-thinking-2507、qwen3-next-80b-a3b-instruct、qwen3-next-80b-a3b-thinking

    • qwen3-coder-480b-a35b-instruct、qwen3-coder-flash、qwen3-coder-flash-2025-07-28、qwen3-coder-plus、qwen3-coder-plus-2025-07-22、qwen3-coder-plus-2025-09-23

モデル実行のモニタリング

システムは、Alibaba Cloud アカウント配下のすべてのワークスペースから自動的にモデル呼び出しデータを収集します。直接または間接的なモデル呼び出しが発生すると、システムはそのデータを収集・同期し、モデルモニタリング (シンガポール)モデルモニタリング (米国 (バージニア))、またはモデルモニタリング (中国 (北京))のリストに反映します。

リストのレコードは、モデルおよびワークスペースごとに生成されます。新しいモデルは、初回のデータ同期後に自動的にリストに追加されます。標準モニタリングにおけるデータ遅延は通常数時間です。分単位のデータ洞察が必要な場合は、高度モニタリングをご利用ください。
デフォルトワークスペースのメンバーは、すべてのワークスペースのモデル呼び出しデータを閲覧できます。サブワークスペースのメンバーは、当該ワークスペースのデータのみを閲覧でき、他のワークスペースへの切り替えはできません。

リストで対象のモデルを見つけ、[モニタリング][操作] 列でクリックして、以下の 4 種類のモニタリングメトリックをクエリします:

  • セキュリティ: 対話内容における非準拠コンテンツ(例: Content Moderation エラー数)を検出します。

  • コスト: モデルのコスト効率(例: リクエストあたりの平均利用量)を評価します。

  • パフォーマンス: モデルのパフォーマンス変化(例: 呼び出し時間最初のトークン遅延)を確認します。

  • エラー: モデルの安定性(例: 障害数障害率)を評価します。

これらのメトリクスに基づいてアラートを作成することで、異常を迅速に検出し、対応できます。

呼び出し統計

このタブでは、セキュリティ、コスト、エラーに関連するメトリクス(例: 呼び出し数、障害数)を表示します。API キー、API キー推論タイプ、および期間でフィルターできます。

  • 制限エラー数: ステータスコード 429 が原因となる呼び出し失敗です。

  • Content Moderation エラー数: 入力または出力にポルノ、政治的コンテンツ、広告など、疑わしいセンシティブまたは高リスクなコンテンツが含まれており、Content Moderation サービス によりブロックされた場合です。

パフォーマンスメトリクス

このタブでは、RPM、TPM、呼び出し時間、最初のトークン遅延などのパフォーマンス関連メトリクスを表示します。

トークン消費量の表示

モデルパラメーターまたはシステムプロンプトの調整により、モデルのトークン消費量が変化します。コスト統計および詳細な管理のために、モデルモニタリングは以下のコストモニタリング機能を提供します。

  • 概要: ワークスペースごとの過去のトークン消費量をまとめます。期間および API キーでさらに絞り込み可能です。

  • 追跡: 各モデル呼び出しにおけるトークン消費量を記録します。

  • アラート通知: トークン消費量のしきい値を設定します。指定したモデルで異常な消費が発生した場合、システムが即時にアラートを送信します。

モデルの過去のトークン消費量を表示

特定の呼び出しのトークン消費量を表示

この機能は現在、一部のモデルでのみ、[中国(北京)]
  1. Alibaba Cloud アカウント(または十分な権限を持つ RAM ユーザー)でログインします。対象ワークスペースのモデルモニタリング (中国 (北京))ページの右上隅にある モデルモニタリング構成 をクリックし、監査ログおよび推論ログの有効化手順に従います。

    ログを有効化すると、システムはワークスペース内のすべてのモデル呼び出しの入力および出力を記録し始めます。呼び出しが発生してからログが記録されるまでの遅延は、分単位です。
  2. モデルモニタリングリストで、対象のモデルを見つけ、[操作] 列の [ログ] をクリックします。

  3. ログ タブには、モデルのリアルタイム推論呼び出し記録が表示されます。利用量 フィールドには、その呼び出しのトークン消費量が表示されます。

異常な消費に対するアラートの作成

会話履歴(モデルログ)の表示

重要

この機能は、現在 中国 (北京) リージョンの 一部のモデルでのみご利用いただけます。

モデルモニタリングにより、入力、出力、所要時間などを含むモデルとのすべての会話を表示できます。これはトラブルシューティングおよびコンテンツ監査のための重要なツールです。

ステップ 1:ログの有効化

Alibaba Cloud アカウント(または十分な権限を持つ RAM ユーザー)でログインします。対象ワークスペースのモデルモニタリング (中国 (北京))ページの右上隅にある モデルモニタリング構成 をクリックし、監査ログおよび推論ログの有効化手順に従います。

ログを有効化すると、システムはワークスペース内のすべてのモデル呼び出しの入力および出力を記録し始めます。呼び出しが発生してからログが記録されるまでの遅延は、分単位です。
記録を停止するには、モデルモニタリング構成で推論ログを無効化します。

ステップ 2:会話履歴の表示

  1. モデルモニタリングリストで、対象のモデルを見つけ、[アクション] 列の [ログ] をクリックします。

  2. ログ タブには、モデルのリアルタイム推論呼び出し記録が表示されます。リクエストおよびレスポンス フィールドには、それぞれ呼び出しの入力および出力が対応します。

積極的なアラートの設定

重要

この機能は、現在シンガポールおよび中国 (北京) リージョンでのみご利用いただけます。

従来のアプリケーションログでは、タイムアウトやトークン消費量の急増といった「静かな障害」を検出することが困難です。モデルモニタリングでは、コスト、障害率、応答遅延などのメトリクスに対してアラートを設定できます。メトリクスが異常になると、システムが即時にアラートを送信します。

ステップ 1:高度モニタリングの有効化

  1. Alibaba Cloud アカウント(または十分な権限を持つ RAM ユーザー)でログインします。モデルモニタリング (シンガポール または 中国 (北京))ページの対象ワークスペースで、右上隅の モデルモニタリング構成 をクリックします。

  2. 「高度モニタリング」領域で、パフォーマンスおよび利用量メトリクスモニタリング を手動で有効化します。

ステップ 2:アラートルールの作成

  1. モデルアラート (シンガポール または 中国 (北京))ページの右上隅にある アラートルールの作成 をクリックします。

  2. ダイアログボックスで、モデルおよびモニタリングテンプレートを選択します。設定を確認後、作成 をクリックします。指定したメトリクス(例: 呼び出し統計またはパフォーマンスメトリクス)が異常になった場合、システムがチームに通知します。

    • 通知方法: ショートメッセージ、メール、電話、DingTalk グループチャットボット、WeCom チャットボット、Webhook をサポートします。

    • アラートレベル: レベルは InfoWarningErrorCritical の 4 種類です。これらのレベルは追加・変更できません。レベルと通知チャネルのマッピングは以下のとおりです。

      • Critical:電話、ショートメッセージ、メール

      • Error:ショートメッセージ、メール

      • Warning:ショートメッセージ、メール

      • Info:メール

Grafana および自社構築アプリケーションとの統合

モデルモニタリングから取得されるモニタリングメトリクスデータは、お客様のプライベート Prometheus インスタンスに保存されます。標準の Prometheus HTTP API をサポートしており、Grafana や自社構築アプリケーションと統合して可視化分析を行うことができます。

ステップ 1:データソースの HTTP API アドレスの取得

  1. 高度モニタリングを有効化済みであることを確認します。

  2. モデルモニタリング (シンガポール)モデルモニタリング (米国 (バージニア))、またはモデルモニタリング (中国 (北京))ページの右上隅にある モデルモニタリング構成 をクリックします。「CloudMonitor Prometheus インスタンス」の右側にある 詳細の表示 をクリックします。

  3. 設定 ページで、クライアントのネットワーク環境(パブリックネットワークまたは VPC アクセス)に応じて対応する HTTP API アドレスをコピーします。

    1

ステップ 2:Grafana または自社構築アプリケーションとの統合

自社構築アプリケーションとの統合

以下の例は、Prometheus HTTP API を使用してモニタリングデータを取得する方法を示しています。完全な API 使用方法については、Prometheus HTTP API ドキュメントをご参照ください。

  • 例 1: Alibaba Cloud アカウント配下のすべてのワークスペースのすべてのモデルについて、指定された期間(UTC 時間で 2025 年 11 月 20 日の全日)におけるトークン消費量を、ステップサイズ step=60s で照会します。クエリは model_usage です。

    パラメーター説明

    GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query: query の値は、以下の「モニタリングメトリクス」リストに記載されている任意のメトリクス名に置き換え可能です。

      モニタリングメトリクスの表示

      タイプ

      メトリクス名

      説明

      呼び出し数

      model_call_count

      モデル呼び出しの総数

      呼び出し時間

      model_call_duration_total

      モデル呼び出し時間の合計

      model_call_duration

      モデル呼び出し時間の平均値

      model_call_duration_p50

      モデル呼び出し時間の p50 値

      model_call_duration_p99

      モデル呼び出し時間の p99 値

      model_first_token_duration_total

      モデル最初のパケット到達時間の合計

      model_first_token_duration

      モデル最初のパケット到達時間の平均値

      model_first_token_duration_p50

      モデル最初のパケット到達時間の p50 値

      model_first_token_duration_p99

      モデル最初のパケット到達時間の p99 値

      非最初パケットの持続時間

      model_generation_duration_per_token_total

      モデル最初以外のパケット到達時間の合計

      model_generation_duration_per_token

      モデルの初回パケット以外の平均時間

      model_generation_duration_per_token_p50

      モデル最初以外のパケット到達時間の p50 値

      model_generation_duration_per_token_p99

      モデル最初以外のパケット到達時間の p99 値

      使用方法

      model_usage

      モデル利用量の合計

    • HTTP API: {HTTP API} は、ステップ 1 で取得した HTTP API アドレスに置き換えてください。

    • 認証: Alibaba Cloud アカウントの AccessKey:AccessKeySecret を連結し、Base64 エンコーディングした文字列を Basic <encoded_string> 形式で指定します。

      例の値: Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
      注意:AccessKey および AccessKey Secret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。
  • 例 2: 例 1 を基に、特定のモデル(model=qwen-plus)および特定のワークスペース(workspace_id=llm-nymssti2mzww****)のトークン消費量を取得するためのフィルターを追加します。

    説明

    GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query: 複数のフィルター条件を {} で囲み、カンマで区切ります(例:{workspace_id="value1",model="value2"})。以下は、サポートされているフィルター条件(LabelKey)の一覧です。

      サポートされているフィルター条件の表示

      LabelKey

      説明

      user_id

      Alibaba Cloud アカウント ID。

      RAM ユーザーの場合、これは UID です。取得方法

      apikey_id

      API キー ID(API キーそのものではありません)。キー管理 (シンガポール | 米国 (バージニア) | 中国 (北京)) ページで取得できます。

      56

      説明

      apikey_id の値が -1 の場合、呼び出しは Alibaba Cloud Model Studio コンソールから発生したものであり、API 経由ではありません。

      workspace_id

      ワークスペース ID。取得方法

      model

      モデル。

      protocol

      プロトコルタイプ。可能な値:

      • HTTP: HTTP 非ストリーミング

      • SSE: HTTP ストリーミング

      • WS: WebSocket プロトコル

      sub_protocol

      サブプロトコル。可能な値:

      status_code

      HTTP ステータスコード。

      model_call_count メトリクスのみがこの LabelKey をサポートします。

      error_code

      エラーコード。

      model_call_count メトリクスのみがこの LabelKey をサポートします。

      usage_type

      利用タイプ。

      model_usage メトリクスのみがこの LabelKey をサポートします。

      可能な値:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

Grafana との統合

Grafana(自社構築または Alibaba Cloud Grafana サービス)にモデルモニタリングデータソースを追加します。この例では Grafana 10.x(英語版)を使用します。他のバージョンでも手順は同様です。詳細については、公式 Grafana ドキュメントをご参照ください。

  1. 1. データソースの追加:

    1. 管理者アカウントで Grafana にログインします。ページ左上隅の image アイコンをクリックし、管理 > データソース を選択します。+ 新規データソースの追加 をクリックし、データソースタイプとして Prometheus を選択します。

    2. 設定 タブで、データソース情報を構成します。

      • 名前: 任意の名前を入力します。

      • Prometheus サーバー URL: ステップ 1 で取得した HTTP API アドレスを入力します。

      • 認証: 基本認証 を有効化し、ユーザー に Alibaba Cloud アカウントの AccessKeyパスワード に Alibaba Cloud アカウントの AccessKey Secret を設定します。

        AccessKey および AccessKey Secret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。

      image

    3. タブの下部にある 保存してテスト をクリックします。

  2. 2. メトリクスの照会:

    1. Grafana ページ左上隅の image アイコンをクリックし、左側のナビゲーションペインで ダッシュボード をクリックします。

    2. ダッシュボード ページで、新規 > 新規ダッシュボード をクリックして、新しいダッシュボードを作成します。

    3. + 可視化の追加 をクリックし、先ほど作成したデータソースを選択します。

    4. パネルの編集 ページで、クエリ タブをクリックします。A 領域で、_name_ および ラベルフィルター フィールドのメトリクス名を選択します。以下の例は、モデルトークン消費量 model_usage を照会する方法を示しています。

      説明

      image

      この例のクエリでは、_name_ の値(model_usage)を、以下の「モニタリングメトリクス」リストに記載されている任意のメトリクス名に置き換えられます。

      モニタリングメトリクスの表示

      タイプ

      メトリクス名

      説明

      呼び出し数

      model_call_count

      モデル呼び出しの総数

      呼び出し時間

      model_call_duration_total

      モデル呼び出し時間の合計

      model_call_duration

      モデル呼び出し時間の平均値

      model_call_duration_p50

      モデル呼び出し時間の p50 値

      model_call_duration_p99

      モデル呼び出し時間の p99 値

      model_first_token_duration_total

      モデル最初のパケット到達時間の合計

      model_first_token_duration

      モデル最初のパケット到達時間の平均値

      model_first_token_duration_p50

      モデル最初のパケット到達時間の p50 値

      model_first_token_duration_p99

      モデル最初のパケット到達時間の p99 値

      最初以外のパケット到達時間

      model_generation_duration_per_token_total

      モデル最初以外のパケット到達時間の合計

      model_generation_duration_per_token

      モデル最初以外のパケット到達時間の平均値

      model_generation_duration_per_token_p50

      モデル最初以外のパケット到達時間の p50 値

      model_generation_duration_per_token_p99

      モデル最初以外のパケット到達時間の p99 値

      利用量

      model_usage

      モデル利用量の合計

      以下のラベルフィルターを追加して、クエリをさらに絞り込むことができます。

      サポートされているフィルター条件の表示

      LabelKey

      説明

      user_id

      Alibaba Cloud アカウント ID。

      RAM ユーザーの場合、これは UID です。取得方法

      apikey_id

      API キー ID(API キーそのものではありません)。キー管理 (シンガポール | 米国 (バージニア) | 中国 (北京)) ページで取得できます。

      56

      説明

      apikey_id の値が -1 の場合、呼び出しは Alibaba Cloud Model Studio コンソールから発生したものであり、API 経由ではありません。

      workspace_id

      ワークスペース ID。取得方法

      model

      モデル。

      protocol

      プロトコルタイプ。可能な値:

      • HTTP: HTTP 非ストリーミング

      • SSE: HTTP ストリーミング

      • WS: WebSocket プロトコル

      sub_protocol

      サブプロトコル。可能な値:

      status_code

      HTTP ステータスコード。

      model_call_count メトリクスのみがこの LabelKey をサポートします。

      error_code

      エラーコード。

      model_call_count メトリクスのみがこの LabelKey をサポートします。

      usage_type

      利用タイプ。

      model_usage メトリクスのみがこの LabelKey をサポートします。

      可能な値:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

    5. クエリの実行 をクリックします。

      グラフにデータが正常に描画された場合、構成は成功です。そうでない場合は、以下の点を確認してください。1) HTTP API アドレス、AccessKey、AccessKey Secret が正しいか。2) ステップ 1 の Prometheus インスタンスにモニタリングデータがあるか。

モニタリングモードの比較

モデルモニタリングは、標準モニタリング および 高度モニタリング の 2 つのモードを提供します。

基本モニタリング この基本サービスは、Alibaba Cloud Model Studio の有効化時に自動的に有効化され、無効化できません。
高度モニタリング:モデルモニタリング (シンガポール)モデルモニタリング (米国 (バージニア))、またはモデルモニタリング (中国 (北京))。高度モニタリングは無効化可能です。高度モニタリングの有効化後に生成された呼び出しデータのみが記録されます。

項目

標準モニタリング(デフォルト)

高度モニタリング(手動有効化が必要)

データ遅延

時単位

分単位

呼び出し統計の表示

対応

対応

失敗した呼び出しの詳細表示

非対応

対応

パフォーマンスメトリクスの表示

対応

対応

適用範囲

Alibaba Cloud アカウント配下のすべてのワークスペース

有効化されたワークスペースにのみ適用

課金

無料

有料

クォータおよび制限事項

  • データ保持期間: 標準モニタリングおよび高度モニタリングのデータは、デフォルトで 30 日間保持されます。それより古い利用情報については、「費用とコスト」ページをご参照ください。

  • アラートテンプレートの制限: ワークスペースあたり最大 100 個のアラートテンプレートを作成できます。

  • API 制限: Prometheus HTTP API を使用して、モデルモニタリングからモニタリングメトリクスデータを取得します。

    • 代替手段: 単一の呼び出しのトークン消費量を API 経由で取得するには、各モデル呼び出しのレスポンスの usage フィールドからデータを抽出します。以下はフィールド構造の例です。詳細については、「Qwen API リファレンス」をご参照ください。

      {
        "prompt_tokens": 3019,
        "completion_tokens": 104,
        "total_tokens": 3123,
        "prompt_tokens_details": {
          "cached_tokens": 2048
        }
      }

課金

よくある質問

モデルを呼び出した後、モデルモニタリングに呼び出し数およびトークン消費量が表示されません。

以下の手順でトラブルシューティングを行ってください。

  1. データ遅延: データ同期に十分な時間が経過しているか確認してください。標準モニタリングでは時単位、高度モニタリングでは分単位の遅延があります。

  2. ワークスペース: サブワークスペースにいる場合、当該ワークスペースのデータのみが表示されます。すべてのデータを表示するには、デフォルトワークスペース に切り替えてください。

大規模言語モデルを呼び出した際にタイムアウトが発生する理由は何ですか。

主な原因は以下のとおりです。

  • 出力が長すぎる: モデルが大量のコンテンツを生成し、合計時間がクライアントの待機制限を超えています。最初のトークンをより早く取得するために、ストリーミング出力 をご利用ください。

  • ネットワークの問題: クライアントと Alibaba Cloud サービス間のネットワーク接続が安定しているか確認してください。

RAM ユーザーに高度モニタリングを有効化するための権限を設定するにはどうすればよいですか。

手順は以下のとおりです。

  1. RAM ユーザーに AliyunBailianFullAccess グローバル管理(Alibaba Cloud Model Studio)権限 を付与します。

  2. RAM ユーザーに Model Monitoring-Operator(または Administratorページ権限 を付与し、モデルモニタリングページでの書き込み操作を許可します。

  3. RAM ユーザーに AliyunCloudMonitorFullAccess システムポリシーをアタッチ します。

  4. RAM ユーザーにサービスリンクロールを作成する権限を付与するためのシステムポリシーを作成し、RAM ユーザーにアタッチします。

    1. RAM コンソール にログインします。左側のナビゲーションウィンドウで、権限管理 > ポリシー を選択し、ポリシーの作成 をクリックします。

    2. スクリプトエディター をクリックし、以下の内容をポリシー編集画面に貼り付け、OK をクリックします。

      {
          "Version": "1",
          "Statement": [
              {
                  "Action": "ram:CreateServiceLinkedRole",
                  "Resource": "*",
                  "Effect": "Allow"
              }
          ]
      }
    3. ポリシー名として CreateServiceLinkedRole を入力し、OK をクリックします。

    4. 左側のナビゲーションウィンドウで、[ID 管理] > [ユーザー] を選択します。権限を付与する RAM ユーザーを見つけ、[操作] 列の [権限の追加] をクリックします。

    5. ポリシー リストから、先ほど作成したポリシー(CreateServiceLinkedRole)を選択し、権限の確認 をクリックします。これで、RAM ユーザーはサービスリンクロールを作成する権限を取得しました。

  5. すべての権限を設定した後、モデルモニタリング (シンガポール)モデルモニタリング (米国 (バージニア))、またはモデルモニタリング (中国 (北京)) ページに戻り、RAM ユーザーで再度 高度モニタリング の有効化を試みてください。

RAM ユーザーに推論ログを有効化するための権限を設定するにはどうすればよいですか。

手順は以下のとおりです。

  1. RAM ユーザーに AliyunBailianFullAccess グローバル管理(Alibaba Cloud Model Studio)権限 を付与します。

  2. RAM ユーザーに Model Monitoring-Operator(または Administratorページ権限 を付与し、モデルモニタリングページでの書き込み操作を許可します。

  3. RAM ユーザーに AliyunLogFullAccess システムポリシーをアタッチ します。

  4. RAM ユーザーにサービスリンクロールを作成する権限を付与するためのシステムポリシーを作成し、RAM ユーザーにアタッチします。

    1. RAM コンソール にログインします。左側のナビゲーションウィンドウで、権限管理 > ポリシー を選択し、ポリシーの作成 をクリックします。

    2. スクリプトエディター をクリックし、以下の内容をポリシー編集画面に貼り付け、OK をクリックします。

      {
          "Version": "1",
          "Statement": [
              {
                  "Action": "ram:CreateServiceLinkedRole",
                  "Resource": "*",
                  "Effect": "Allow"
              }
          ]
      }
    3. ポリシー名として CreateServiceLinkedRole を入力し、OK をクリックします。

    4. 左側のナビゲーションウィンドウで、[ID 管理] > [ユーザー] を選択します。権限を付与する RAM ユーザーを見つけ、[操作] 列の [権限の追加] をクリックします。

    5. ポリシー リストから、先ほど作成したポリシー(CreateServiceLinkedRole)を選択し、権限の確認 をクリックします。これで、RAM ユーザーはサービスリンクロールを作成する権限を取得しました。

  5. すべての権限を設定した後、モデルモニタリング (中国 (北京)) ページに戻り、RAM ユーザーで再度 推論ログ の有効化を試みてください。

付録

用語集

名詞

説明

リアルタイム推論

すべての直接および間接的なモデル呼び出しを指し、主に以下のシナリオをカバーします。

  • DashScope SDK または OpenAI 互換 API を使用した API 呼び出し

  • プレイグラウンド

  • Alibaba Cloud Model Studio アプリケーション(エージェント、ワークフロー、エージェントオーケストレーションアプリケーション、およびモデル呼び出しを含むノード(LLM ノード、インテント分類ノード、エージェントグループノードなど))のテスト状態または公開状態

  • Assistant API 呼び出し

  • アプリケーション呼び出し

バッチ推論

リアルタイム応答を必要としないシナリオ向けの大規模データ処理で、OpenAI 互換バッチ API を使用してオフラインで実行されます。