ダッシュボードのメトリックとクエリメソッド - ApsaraMQ for RocketMQ

ApsaraMQ for RocketMQ は、Alibaba Cloud ARMS Managed Service for Prometheus と Grafana のメトリックストレージおよび表示機能を使用するリアルタイムデータ統計用のダッシュボードを提供します。この機能は、複数のディメンションからメトリックを一元的に収集および監視し、ビジネスの運用状況を迅速に把握するのに役立ちます。このトピックでは、ダッシュボードのシナリオ、課金、メトリック、および使用方法について説明します。

シナリオ

シナリオ 1: オンラインメッセージの消費が異常で、メッセージが迅速に処理されません。アラートを受信し、問題を迅速に特定する必要があります。
シナリオ 2: 一部のオンライン注文のステータスが異常です。対応するメッセージリンクを介してメッセージが正しく送信されているかどうかを確認する必要があります。
シナリオ 3: ビジネス動向の分析と計画のために、メッセージトラフィックの傾向、分布特性、またはメッセージ量を分析する必要があります。
シナリオ 4: アーキテクチャのスペックアップまたは最適化のために、アップストリームおよびダウンストリームアプリケーションの依存トポロジーを表示および分析する必要があります。

前提条件

Managed Service for Prometheus をアクティベートする。
サービスリンクロールを作成します。
- ロール名: AliyunServiceRoleForOns
- ポリシー名: AliyunServiceRolePolicyForOns
- 権限: ApsaraMQ for RocketMQ がこのロールを使用して、CloudMonitor や ARMS などの他の Alibaba Cloud サービスにアクセスし、モニタリング、アラート、ダッシュボードの機能を実装できるようにします。
- 詳細については、「サービスリンクロール」をご参照ください。

課金

ApsaraMQ for RocketMQ のダッシュボードメトリックは、ARMS Managed Service for Prometheus の基本メトリックです。基本メトリックは無料です。したがって、ダッシュボード機能も無料です。

詳細については、「メトリック」および「従量課金」をご参照ください。

概念

ダッシュボードのメトリックを表示する前に、メッセージの蓄積に関連する次の概念を理解する必要があります。

次の図は、指定された Topic のキュー内のメッセージのステータスを示しています。

队列消息状态

ApsaraMQ for RocketMQ は、さまざまな処理段階でのメッセージ数と所要時間に関する統計を収集します。これらのメトリックは、キュー内のメッセージ処理率とバックログを直接反映します。これらのメトリックを監視することで、サービスの消費が異常であるかどうかを判断できます。次のセクションでは、これらのメトリックの意味と、それらの計算に使用される数式について説明します。

カテゴリ	メトリック	定義	計算式
メッセージ数メトリック	Inflight メッセージ	コンシューマークライアントによって処理されているが、クライアントがまだ消費結果を返していないメッセージ。	最新のプルされたメッセージのオフセット - 最新の送信されたメッセージのオフセット
	Ready メッセージ	ApsaraMQ for RocketMQ サーバー上で準備が完了したメッセージ。メッセージはコンシューマーに表示され、消費可能です。	最大メッセージオフセット - 最新のプルされたメッセージのオフセット
	コンシューマーラグ	未処理メッセージの総数。	Inflight メッセージ数 + Ready メッセージ数
メッセージ期間メトリック	Ready メッセージの Ready 時間	通常メッセージと順序メッセージ: メッセージがサーバーに保存された時間。スケジュールメッセージと遅延メッセージ: スケジュールまたは遅延が終了した時間。トランザクションメッセージ: トランザクションが送信された時間。	該当なし
	Ready メッセージのキュー時間	最も古い Ready メッセージの経過時間。この値は、コンシューマーがメッセージをどれだけ迅速にプルするかを示します。	現在時刻 - 最も古い Ready メッセージの Ready 時間
	コンシューマーラグ時間	応答を待っている最も古いメッセージが Ready になってからの経過時間。この値は、コンシューマーがメッセージをどれだけ迅速に処理するかを示します。	現在時刻 - 応答を待っている最も古いメッセージの Ready 時間

メトリックの詳細

ApsaraMQ for RocketMQ ダッシュボードは、次のメトリックを提供します。

プロデューサー: 送信されたメッセージ数、送信成功率、送信レイテンシーなど、Topic のメトリックを表示します。
コンシューマー: 消費量、消費成功率、メッセージ蓄積など、特定の Topic へのグループのサブスクリプションに関連するメトリックを表示します。
インスタンス Top 20 概要: インスタンス内の特定のメトリック値について、上位 20 の Topic またはグループを表示します。
課金メトリック: メッセージ TPS、API 呼び出し、平均メッセージサイズなど、インスタンスのメトリックを表示します。これらのメトリックは、課金項目を見積もるためのリファレンスとして使用できます。

重要

すべてのメトリックの収集期間は 1 分です。ApsaraMQ for RocketMQ は、過去 15 日間のデータのクエリをサポートしています。1 回のクエリの最大時間範囲は 24 時間です。

プロデューサー

メトリック	説明
メッセージ生成レート	Topic のメッセージ生成レートとメッセージ生成の API 呼び出しレート。単位: メッセージレート: messages/second API 呼び出しレート: calls/second
ピークメッセージ生成レート	最大メッセージ生成レート。単位: messages/second。
生成されたメッセージの合計	特定のインスタンスで生成されたメッセージの総数。単位: messages。
メッセージ生成呼び出し成功率	Topic のメッセージ生成の成功率。
メッセージ生成呼び出しレイテンシー	Topic のメッセージ生成のレイテンシー。単位: ms。

コンシューマー

メトリック	説明
平均消費成功率	特定のインスタンス内のすべてのメッセージの消費成功率。
蓄積メッセージ (Ready + Inflight)	特定のインスタンス内の蓄積メッセージの総数 (Ready メッセージと Inflight メッセージを含む)。単位: messages。
Inflight メッセージ	コンシューマークライアントによって処理されているが、成功応答が返されていないメッセージの数。単位: messages。
Ready メッセージ	ApsaraMQ for RocketMQ サーバー上で準備が完了し、消費可能なメッセージの数。このメトリックは、コンシューマーによってまだ処理されていないメッセージの規模を反映します。単位: messages。
Ready メッセージのキュー時間	現在時刻と最も古い Ready メッセージの Ready 時間との差。このメトリックは、未処理メッセージのレイテンシーを反映し、時間に敏感なサービスにとって重要なメジャーです。概要のメトリック値は、インスタンスの平均 Ready メッセージキュー時間を表します。特定のチャートのメトリック値は、特定の Topic をサブスクライブしている特定のグループの Ready メッセージキュー時間を表します。単位: ms。
メッセージ消費レート	グループがメッセージを消費するレート。単位: messages/second
ピークメッセージ消費レート	最大メッセージ消費レート。単位: messages/second
消費されたメッセージの合計	特定のインスタンスで消費されたメッセージの総数。単位: messages。
消費の蓄積	グループの蓄積メッセージ数 (Ready メッセージと Inflight メッセージを含む)。単位: messages。
メッセージ処理レイテンシー	グループがメッセージを処理するのにかかる時間 (消費開始から完了まで)。単位: ms。
コンシューマーのローカル待機時間	メッセージがコンシューマークライアントに到着してから処理されるまでの時間。単位: ms。
消費成功率	メッセージ消費の成功率。
コンシューマークライアントアクセスプロトコル比率	プロトコルタイプ別の消費メッセージの比率。

インスタンス Top 20 概要

メトリック	説明
メッセージ生成レートによる Top 20 Topic	メッセージ生成レートが最も高い上位 20 の Topic。単位: messages/second。
メッセージ消費レートによる Top 20 GroupID	メッセージ消費レートが最も高い上位 20 のグループ。単位: messages/second。
Ready メッセージ数による Top 20 GroupID	Ready メッセージが最も多い上位 20 のグループ。単位: messages。
Ready メッセージのキュー時間による Top 20 GroupID	Ready メッセージのキュー時間が最も長い上位 20 のグループ。単位: ms。
蓄積メッセージ数 (Ready + Inflight) による Top 20 GroupID	蓄積メッセージが最も多い上位 20 のグループ。単位: messages。
Inflight メッセージ数による Top 20 GroupID	Inflight メッセージが最も多い上位 20 のグループ。単位: メッセージ。
消費処理レイテンシーによる Top 20 GroupID	消費処理レイテンシーが最も長い上位 20 のグループ。単位: ms。
コンシューマーのローカル待機時間による Top 20 GroupID	コンシューマーのローカル待機時間が最も長い上位 20 のグループ。単位: ms。
メッセージ生成呼び出し失敗率による Top 20 Topic	メッセージ生成の失敗率が最も高い上位 20 の Topic。
メッセージ消費失敗率による Top 20 GroupID	メッセージ消費の失敗率が最も高い上位 20 のグループ。

課金メトリック

説明

以下の課金メトリックの値には、large メッセージと高度な機能の乗数が含まれます。

large メッセージ乗数: 測定単位は 4 KB です。たとえば、16 KB のメッセージを送信する場合、API 呼び出しの数は 16 KB / 4 KB = 4 として計算されます。
高度な機能の乗数: 順序メッセージ、スケジュールメッセージ、遅延メッセージ、トランザクションメッセージなどの高度な機能を備えたメッセージの API 呼び出し数は、通常メッセージの API 呼び出し数の 5 倍です。

メトリック	説明
ピーク生成 TPS	最大メッセージ生成 TPS。このメトリックは、インスタンスの課金項目におけるピーク TPS 仕様を見積もるためのリファレンスとして使用できます。単位: calls/second。
ピーク消費 TPS	最大メッセージ消費 TPS。このメトリックは、インスタンスの課金項目におけるピーク TPS 仕様を見積もるためのリファレンスとして使用できます。単位: calls/second。
ピーク TPS	メッセージ生成 TPS とメッセージ消費 TPS の合計の最大値。このメトリックは、インスタンスの課金項目におけるピーク TPS 仕様を見積もるためのリファレンスとして使用できます。単位: calls/second。
API 呼び出しの合計	API 呼び出しの総数。このメトリックは、インスタンスの課金項目における API 呼び出し数を見積もるためのリファレンスとして使用できます。単位: calls。
平均メッセージサイズ	生成されたすべてのメッセージの平均サイズ。単位: bytes。
生成および消費 TPS	メッセージ生成 TPS とメッセージ消費 TPS の合計。単位: calls/second。
1 日あたりの API 呼び出し	メッセージの生成と消費に関する 1 日あたりの API 呼び出しの総数。単位: calls。

メトリックの詳細

重要

メッセージ TPS、送受信されたメッセージ数、またはメッセージの総数に関連するメトリックを計算する場合、基本単位は 4 KB の通常メッセージです。メッセージサイズと高度なメッセージタイプの乗数がこの基本単位に適用されます。

次の表に、メトリックのフィールドを示します。

フィールド	値
メトリックタイプ	Gauge: 増加または減少する可能性のあるメトリック。その値は、統計オブジェクトの瞬間的な測定値を表します。例: API 呼び出しの TPS。
ラベル	instance_id: ApsaraMQ for RocketMQ インスタンス ID。 topic: ApsaraMQ for RocketMQ Topic。 message_type: メッセージタイプ。normal は通常メッセージを示します。fifo は順序メッセージを示します。transaction はトランザクションメッセージを示します。delay はスケジュールメッセージまたは遅延メッセージを示します。 uid: Alibaba Cloud アカウント ID。 protocol_type: プロトコルタイプ。tcp は TCP プロトコルを示します。http は HTTP プロトコルを示します。

サーバーサイドメトリック

メトリックタイプ

メトリック名

単位

説明

ラベル

Gauge

rocketmq_instance_requests_threshold

count/s

インスタンスのスロットルしきい値。

uid
instance_id

Gauge

rocketmq_instance_requests_max

count/s

1 分あたりのインスタンスの最大 TPS。スロットルされたリクエストは含まれません。

ルール: 1 分以内に取得された 60 個の TPS サンプルのうちの最大値。

uid
instance_id

プロデューサーメトリック

メトリックタイプ	メトリック名	単位	説明	ラベル
Gauge	rocketmq_producer_requests (commercialCount, billable requests)	count	メッセージ送信に関連する API 呼び出しの数。	uid instance_id topic message_type="normal\|fifo\|transaction\|delay"
Gauge	rocketmq_producer_messages	message	送信されたメッセージの数。	uid instance_id topic message_type="normal\|fifo\|transaction\|delay"
Gauge	rocketmq_producer_message_size_bytes	byte	送信されたメッセージの合計サイズ。	uid instance_id topic message_type="normal\|fifo\|transaction\|delay"
Gauge	rocketmq_producer_send_success_rate	%	送信成功率。	uid instance_id topic
Gauge	rocketmq_producer_failure_api_calls	count	メッセージ送信の失敗した API 呼び出しの数。	uid instance_id topic
Gauge	rocketmq_producer_send_rt_milliseconds_avg	ms	メッセージ送信の平均レイテンシー。	uid instance_id topic
Gauge	rocketmq_producer_send_rt_milliseconds_min	ms	メッセージ送信の最小レイテンシー。	uid instance_id topic
Gauge	rocketmq_producer_send_rt_milliseconds_max	ms	メッセージ送信の最大レイテンシー。	uid instance_id topic
Gauge	rocketmq_producer_send_rt_milliseconds_p95	ms	メッセージ送信の P95 レイテンシー。	uid instance_id topic
Gauge	rocketmq_producer_send_rt_milliseconds_p99	ms	メッセージ送信の P99 レイテンシー。	uid instance_id topic

コンシューマーメトリック

メトリックタイプ	メトリック名	単位	説明	ラベル
Gauge	rocketmq_consumer_requests	count	メッセージ消費に関連する API 呼び出しの数。	uid instance_id topic client_group protocol_type="tcp\|http"
Gauge	rocketmq_consumer_send_back_requests	count	消費に失敗したメッセージを返送するための API 呼び出しの数。	uid instance_id topic group_id
Gauge	rocketmq_consumer_send_back_messages	message	消費に失敗し、コンシューマーによって返送されたメッセージ。	uid instance_id topic group_id
Gauge	rocketmq_consumer_messages	message	消費されたメッセージの数。	uid instance_id topic client_group protocol_type="tcp\|http"
Gauge	rocketmq_consumer_message_size_bytes	byte	消費されたメッセージのサイズ (1 分間にわたって蓄積)。	uid instance_id topic client_group protocol_type="tcp\|http"
Gauge	rocketmq_consumer_ready_and_inflight_messages	message	メッセージ消費ラグ (Ready メッセージと Inflight メッセージを含む)。	uid instance_id topic group_id
Gauge	rocketmq_consumer_ready_messages	message	Ready メッセージの数。実際の蓄積: maxOffset - lastPullOffset	uid instance_id topic group_id
Gauge	rocketmq_consumer_inflight_messages	message	Inflight メッセージの数。ルール: lastPullOffset - committedOffset	uid instance_id topic group_id
Gauge	rocketmq_consumer_queue_time_milliseconds	ms	メッセージキュー時間。	uid instance_id topic group_id
Gauge	rocketmq_consumer_message_await_time_milliseconds_avg	ms	メッセージがコンシューマークライアントで処理リソースを待機する平均時間。	uid instance_id topic group_id
Gauge	rocketmq_consumer_message_await_time_milliseconds_min	ms	メッセージがコンシューマークライアントで処理リソースを待機する最小時間。	uid instance_id topic group_id
ゲージ	rocketmq_consumer_message_await_time_milliseconds_max	ms	メッセージがコンシューマークライアントで処理リソースを待機する最大時間。	uid instance_id topic group_id
Gauge	rocketmq_consumer_message_await_time_milliseconds_p95	ms	メッセージがコンシューマークライアントで処理リソースを待機する P95 時間。	uid instance_id topic group_id
Gauge	rocketmq_consumer_message_await_time_milliseconds_p99	ms	メッセージがコンシューマークライアントで処理リソースを待機する P99 時間。	uid instance_id topic group_id
Gauge	rocketmq_consumer_message_process_time_milliseconds_avg	ms	コンシューマーの平均メッセージ処理レイテンシー。	uid instance_id topic group_id
Gauge	rocketmq_consumer_message_process_time_milliseconds_min	ms	コンシューマーの最小メッセージ処理レイテンシー。	uid instance_id topic group_id
Gauge	rocketmq_consumer_message_process_time_milliseconds_max	ms	コンシューマーの最大メッセージ処理レイテンシー。	uid instance_id topic group_id
Gauge	rocketmq_consumer_message_process_time_milliseconds_p95	ms	コンシューマーの P95 メッセージ処理レイテンシー。	uid instance_id topic group_id
Gauge	rocketmq_consumer_message_process_time_milliseconds_p99	ms	コンシューマーの P99 メッセージ処理レイテンシー。	uid instance_id topic group_id
Gauge	rocketmq_consumer_consume_success_rate	%	メッセージ消費成功率。	uid instance_id topic group_id
Gauge	rocketmq_consumer_failure_api_calls	count	消費の失敗した API 呼び出しの数。	uid instance_id topic group_id
Gauge	rocketmq_consumer_to_dlq_messages	message	デッドレターキュー (DLQ) に送信されたメッセージの数。	uid instance_id topic group_id

ダッシュボードの表示

ApsaraMQ for RocketMQ コンソールにログインします。左側のナビゲーションウィンドウで、インスタンス数 をクリックします。
上部のナビゲーションバーで、中国 (杭州) などのリージョンを選択します。[インスタンス] ページで、管理するインスタンスの名前をクリックします。
次のいずれかの方法を使用してダッシュボードを表示します。
- インスタンスの詳細 ページ: インスタンスの詳細 ページで、ダッシュボード タブをクリックします。
- ダッシュボード ページ: 左側のナビゲーションウィンドウで、ダッシュボード をクリックします。
- トピックの詳細 ページ: 左側のナビゲーションウィンドウで、トピックの管理 をクリックします。Topic リストで、ターゲット Topic 名をクリックします。トピックの詳細 ページで、ダッシュボード タブをクリックします。
- グループ詳細 ページ: 左側のナビゲーションウィンドウで、グループ管理 をクリックします。グループリストで、ターゲットグループの名前をクリックします。次に、グループ詳細 ページで、ダッシュボード タブをクリックします。

ダッシュボードに関するよくある質問

ダッシュボードのメトリックデータを取得するにはどうすればよいですか？

Alibaba Cloud アカウントで ARMS コンソールにログインします。
左側のナビゲーションウィンドウで、[インテグレーションセンター] をクリックします。
[インテグレーションセンター] ページで、検索ボックスに RocketMQ と入力し、検索アイコンをクリックします。
検索結果で、[Alibaba Cloud RocketMQ (4.0) Service] など、統合する Alibaba Cloud サービスを選択します。詳細については、「ステップ 1: Alibaba Cloud サービスのモニタリングデータを統合する」をご参照ください。
統合が成功したら、左側のナビゲーションウィンドウで [プロビジョニング] をクリックします。
[クラウドサービスエリア環境] リストで、ターゲット環境の名前をクリックして詳細ページに移動します。
[コンポーネント管理] タブの [基本情報] セクションで、[Prometheus インスタンス] のリージョンをクリックします。
[設定] タブで、さまざまなデータアクセス方法を見つけることができます。

ダッシュボードのメトリックデータをセルフマネージド Grafana に統合するにはどうすればよいですか？

ApsaraMQ for RocketMQ のすべてのメトリックデータは、Managed Service for Prometheus に保存されます。ダッシュボードのメトリックデータを取得するにはどうすればよいですか？の手順に従って Alibaba Cloud サービスに接続し、環境名と HTTP API アドレスを取得します。その後、API を使用して ApsaraMQ for RocketMQ のダッシュボードメトリックデータをセルフマネージド Grafana に統合できます。詳細については、「HTTP API アドレスを使用して Prometheus データを Grafana またはセルフマネージドアプリケーションに統合する」をご参照ください。

インスタンスの平均 TPS と最大 TPS をどのように理解すればよいですか？

平均 TPS = 1 分間の合計リクエスト数 / 60 秒
最大 TPS: 1 分間の統計期間内に、TPS 値は 1 秒に 1 回サンプリングされます。最大 TPS は、これら 60 のサンプリング値の中で最も高い値です。

例:

インスタンスが 1 分間に 60 件のメッセージを生成すると仮定します。すべてのメッセージは通常メッセージで、それぞれのサイズは 4 KB です。インスタンスの生成レートは 1 分あたり 60 メッセージです。

インスタンスの平均 TPS = 60 呼び出し / 60 秒 = 1 呼び出し/秒

インスタンスの最大 TPS は次のように計算されます。

60 件のメッセージが最初の 1 秒で送信された場合、その分の各秒の TPS 値は 60, 0, 0, ..., 0 となります。
インスタンスの最大 TPS = 60 呼び出し/秒。
最初の 1 秒で 40 件のメッセージが送信され、2 番目の秒で 20 件のメッセージが送信された場合、その分の各秒の TPS 値は 40, 20, 0, 0, ..., 0 となります。
インスタンスの最大 TPS = 40 呼び出し/秒。