モデル観測機能を使用して、以下の操作を実行します。
呼び出しレコードの表示
トークンレイテンシー、呼び出し期間、1 分あたりのリクエスト数 (RPM)、1 分あたりのトークン数 (TPM)、失敗率などのメトリックのモニタリングとアラート作成
トークン消費量の追跡
モデルの可用性
モデルリスト内のすべてのモデルがサポートされています。
モデル操作のモニタリング
モデル推論サービスを有効化すると、Alibaba Cloud Model Studio は自動的に以下の 4 つのカテゴリのモニタリングメトリックをモデル観測ダッシュボードに追加します。
セキュリティ:
Content Moderation エラーなど、会話における非準拠コンテンツを特定します。コスト:
リクエストあたりの平均トークン数など、モデルのコスト効率を評価します。パフォーマンス:
呼び出し期間や最初のトークンまでの時間など、モデルのパフォーマンスの変化を観測します。エラー:
失敗や失敗率など、モデルの安定性を判断します。
前述のメトリックに基づいてアラートを作成し、異常を迅速に検出して対処できます。
ステップ 1:モデル推論サービスの有効化
Model Studio コンソールの上部に次のメッセージが表示されている場合は、Alibaba Cloud アカウントを使用してサービスを有効化し、無料の呼び出しクォータを取得してください。メッセージが表示されていない場合、サービスはすでに有効化されています。

有効化後、システムは、お客様の Alibaba Cloud アカウント配下のすべてのワークスペースからモデル呼び出しデータを自動的に収集します。直接または間接のモデル呼び出しが発生すると、システムは関連データを自動的に収集し、モデル観測 (シンガポールまたは北京) リストに同期します。
リストのレコードは、モデルとワークスペースごとに生成されます。新しいモデルは、最初のデータ同期が完了した後に自動的にリストに追加されます。基本モニタリングのレイテンシーは通常、時間単位です。分単位のデータインサイトを得るには、高度なモニタリングを使用してください。
デフォルトワークスペースのメンバーは、すべてのワークスペースのモデル呼び出し詳細を表示できます。サブワークスペースのメンバーは、現在のワークスペースのデータのみを表示でき、他のワークスペースのデータに切り替えることはできません。
ステップ 2:モニタリングメトリックの表示
モデルがリストに表示されたら、[アクション] 列の [モニター] をクリックして、呼び出し回数や失敗回数などの [呼び出し統計] を表示します。API キー、推論タイプ、および時間範囲で統計をフィルターします。
レート制限エラー:429 ステータスコードを持つ失敗を指します。
Content Moderation エラー: 入力または出力にポルノ、政治的なコンテンツ、広告など、センシティブまたはリスクが高いと疑われるコンテンツが含まれている場合に、Content Moderation サービスによってインターセプトされる呼び出しを指します。
[パフォーマンスメトリック] タブでは、 RPM、TPM、 呼び出し時間、最初のトークンまでの時間などのメトリックを表示できます。
トークン消費量の表示
実際には、モデルパラメーターの調整、システムプロンプト、その他の操作によって、モデルのトークン消費量が変化する可能性があります。コストをきめ細かく計算および管理するために、モデル観測は以下のコストモニタリング機能を提供します。
サマリー:ワークスペースごとにモデルの過去のトークン消費量を要約します。時間範囲や API キーでさらにフィルターできます。
アラート機能:トークン消費量のしきい値を設定できます。指定されたモデルが異常な消費を示した場合、システムは直ちにアラートを送信します。
ステップ 1:モデル推論サービスの有効化
モデルサービスを有効化していることを確認してください。
ステップ 2:トークン消費量の表示またはアラートの作成
モデルの過去のトークン消費量を表示する:
異常な消費に対するアラートを作成する:
プロアクティブアラートの作成をご参照ください。
プロアクティブアラートの作成
タイムアウトやトークン消費量の急増など、サイレントなモデルの障害は、従来のアプリケーションログでは検出しにくいです。モデル観測を使用すると、コスト、失敗率、応答レイテンシーなどのモニタリングメトリックに対してアラートを設定できます。メトリックが異常になった場合、システムは直ちにアラートを送信します。
ステップ 1:高度なモニタリングの有効化
モデル推論サービスを有効化していることを確認してください。
Alibaba Cloud アカウント (または十分な権限を持つ RAM ユーザー) でログインします。対象のワークスペースの モデル観察 (シンガポールまたは北京) ページで、右上隅にある [モデル観察設定] をクリックします。
[高度なモニタリング] エリアで、[パフォーマンスと使用状況メトリックのモニタリング] を手動で有効にできます。
ステップ 2:アラートルールの作成
ダイアログボックスで、モデルとモニタリングテンプレートを選択し、[作成] をクリックします。指定されたモニタリングメトリック (呼び出し統計やパフォーマンスメトリックなど) が異常になった場合、システムはチームに通知します。
通知方法:サポートされている方法には、ショートメッセージ、メール、電話、DingTalk グループボット、WeCom ボット、Webhook が含まれます。
アラートレベル:利用可能なレベルは [一般]、[警告]、[エラー]、[緊急] です。これらのレベルは事前定義されており、変更できません。通知方法はすべてのレベルで同じです。チーム内で一貫した対応手順を確立することを推奨します。
Grafana またはカスタムアプリケーションへの接続
モデル観測からのモニタリングメトリックデータは、お客様専用の Prometheus インスタンスに保存されます。標準の Prometheus HTTP API をサポートしており、これを使用して Grafana やカスタムアプリケーションに接続し、視覚的な分析を行うことができます。
ステップ 1:データソースの HTTP API アドレスの取得
高度なモニタリングを有効化していることを確認してください。
モデル観測 (シンガポール または 北京) ページで、右上隅にある [モデル観測設定] をクリックし、次に CloudMonitor Prometheus インスタンスの右側にある [詳細の表示] をクリックします。
[設定] タブで、クライアントのネットワーク環境 (インターネットまたは内部ネットワーク (VPC)) に一致する HTTP API URL をコピーします。

ステップ 2:Grafana またはカスタムアプリケーションへの接続
カスタムアプリケーションへの接続
次の例は、Prometheus HTTP API を使用してモニタリングデータを取得する方法を示しています。完全な API の使用方法の詳細については、Prometheus HTTP API リファレンスをご参照ください。
例 1:指定された時間範囲 (2025 年 11 月 20 日終日、UTC) 内で、ステップサイズ
step=60sで、ご利用の Alibaba Cloud アカウント配下のすべてのワークスペースのすべてのモデルのトークン消費量 (query=model_usage) をクエリします。例
パラメーターの説明
GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query:
queryの値は、以下のモニタリングメトリックリストの任意のメトリック名に置き換えることができます。HTTP API:
{HTTP API}をステップ 1で取得した HTTP API アドレスに置き換えます。Authorization:ご利用の Alibaba Cloud アカウントの
AccessKey:AccessKeySecretを連結し、結果の文字列を Base64 エンコードして、Basic <encoded-string>の形式で指定します。値の例: Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
注意:AccessKey とAccessKey Secret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。
例 2:例 1 に基づいて、フィルターを追加して、特定のワークスペース (workspace_id=
llm-nymssti2mzww****) 内の特定のモデル (model=qwen-plus) のトークン消費量のみを取得します。例
説明
GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query:複数のフィルター条件を
{}で囲み、カンマで区切ります。例:{workspace_id="value1",model="value2"}。以下はサポートされているフィルター条件 (LabelKey) です。
Grafana への接続
Grafana (セルフホストまたは Alibaba Cloud Grafana サービス) にモデル観測データソースを追加します。このトピックでは、Grafana 10.x (英語版) を例として使用します。他のバージョンの手順も同様です。詳細については、Grafana 公式ドキュメントをご参照ください。
データソースの追加:
管理者アカウントを使用して Grafana にログインします。ページの左上隅にある
アイコンをクリックし、 を選択します。[+ Add New Data Source] をクリックします。データソースタイプとして [Prometheus] を選択します。[Settings] タブで、データソース情報を設定します。
Name:カスタム名を入力します。
Prometheus server URL:ステップ 1で取得した HTTP API アドレスを入力します。
Auth:[Basic Auth] を有効にし、[User] (ご利用の Alibaba Cloud アカウントのAccessKey) と [Password] (ご利用の Alibaba Cloud アカウントのAccessKey Secret) を設定します。
AccessKey と AccessKey Secret は、ステップ 1 の Prometheus インスタンスと同じ Alibaba Cloud アカウントに属している必要があります。

タブの下部にある [Save & Test] をクリックします。
メトリックのクエリ:
Grafana ページの左上隅にある
アイコンをクリックし、左側のナビゲーションウィンドウで [Dashboards] をクリックします。[Dashboards] ページの右側にある をクリックして、新しいダッシュボードを作成します。
[+ Add Visualization] をクリックし、先ほど作成したデータソースを選択します。
[Edit Panel] ページで、[Query] タブをクリックします。[A] エリアで、[Label Filters] フィールドの [_name_] とメトリック名を選択します。たとえば、モデルのトークン消費量
model_usageをクエリするには、次のようにします。例
説明

この例では、
_name_(model_usage) の値は、モニタリングメトリックリストの任意のメトリック名に置き換えることができます。クエリをさらに絞り込むために、以下のラベルフィルターを追加できます。
[Run Queries] をクリックします。
チャートにデータが正常にレンダリングされた場合、設定は成功です。そうでない場合は、以下を確認してください:1) HTTP API アドレス、AccessKey、および AccessKey Secret が正しいこと。2) ステップ 1の Prometheus インスタンスにモニタリングデータが含まれていること。
モニタリングモードの比較モデル観測は、[基本モニタリング] と [高度なモニタリング] の 2 つのモニタリングモードを提供します。 [基本モニタリング]:この基本サービスは、モデルサービスが有効化されると自動的に有効になり、無効にすることはできません。 高度なモニタリング: 対象のワークスペースの [モデル監視] (シンガポール または 北京) ページで、Alibaba Cloud アカウント または十分な権限を持つ RAM ユーザー
| ||||||||||||||||||||||||||||
クォータと制限
データ保持期間: デフォルトでは、基本モニタリングと高度なモニタリングの両方のデータは 30 日間保持されます。30 日を超える使用量情報を照会するには、[費用とコスト] ページに移動します。
アラートテンプレートの制限:各ワークスペースで最大 100 個のアラートテンプレートを作成できます。
API 制限:Prometheus HTTP API を通じて、モデル観測のモニタリングメトリックデータをクエリできます。
回避策:API を通じて単一の呼び出しのトークン消費量を取得するには、各モデル呼び出しのレスポンスの
usageフィールドから現在の呼び出しデータを抽出できます。このフィールドは次の構造を持っています。詳細については、Qwen API リファレンスをご参照ください。{ "prompt_tokens": 3019, "completion_tokens": 104, "total_tokens": 3123, "prompt_tokens_details": { "cached_tokens": 2048 } }
課金
基本モニタリング:無料です。
高度なモニタリング:この機能を有効にすると、分単位のモニタリングデータが CloudMonitor (CMS) サービスに書き込まれ、追加料金が発生します。 課金方法の詳細については、「CloudMonitor の課金概要」をご参照ください。
よくある質問
モデルを呼び出した後、モデル観測で呼び出し回数とトークン消費量が見つからないのはなぜですか?
この問題は、次のようにトラブルシューティングできます。
データレイテンシー:データ同期に十分な時間待機したことを確認してください。データは基本モニタリングでは時間単位で、高度なモニタリングでは 1 分ごとに同期されます。
ワークスペース:サブワークスペースにいる場合、そのワークスペースのデータしか表示できません。すべてのデータを表示するには、デフォルトワークスペースに切り替えてください。
大規模言語モデルを呼び出す際にタイムアウトが発生する考えられる理由は何ですか?
一般的な理由には以下が含まれます。
長い出力:モデルが生成するコンテンツが多すぎて、合計時間がクライアントの待機制限を超えてしまいます。ストリーミング出力メソッドを使用して、最初のトークンをより迅速に取得できます。
ネットワークの問題:クライアントと Alibaba Cloud サービス間のネットワーク接続が安定しているか確認してください。
RAM ユーザーが高度なモニタリングを有効にするための権限を設定するにはどうすればよいですか?
次の手順に従ってください。
RAM ユーザーに
AliyunBailianFullAccessグローバル管理権限を付与します。RAM ユーザーに
ModelObservation-FullAccess(またはAdministrator) ページ権限を割り当て、モデル観測ページでの書き込み操作を許可します。RAM ユーザーに AliyunCloudMonitorFullAccess システムポリシーを付与します。
RAM ユーザーがサービスリンクロールを作成できるようにするシステムポリシーを作成して付与します。
RAM コンソールにログインします。左側のナビゲーションウィンドウで、 を選択します。次に、[ポリシーの作成] をクリックします。
[JSON] をクリックし、次の内容をポリシーエディターに貼り付け、[OK] をクリックします。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }アクセスポリシー名として
CreateServiceLinkedRoleを入力し、[OK] をクリックします。左側のナビゲーションウィンドウで、 を選択します。権限を付与したい RAM ユーザーを見つけ、[アクション] 列の [権限の追加] をクリックします。
アクセスポリシーリストから、先ほど作成したアクセスポリシー (CreateServiceLinkedRole) を選択し、[権限の付与] をクリックします。これで、RAM ユーザーはサービスリンクロールを作成する権限を持ちます。
前述のすべての権限設定を完了したら、モデル監視 (シンガポール または 北京) ページに戻り、RAM ユーザーを使用して、再度 [高度なモニタリング] を有効にしてみてください。
付録
用語集
用語 | 説明 |
リアルタイム推論 | モデルへのすべての直接的および間接的な呼び出し。これには、以下のシナリオで行われた呼び出しが含まれます。
|
バッチ推論 | リアルタイム応答を必要としないシナリオ向けの、OpenAI 互換バッチインターフェイスを使用した大規模なオフラインデータ処理。 |
