すべてのプロダクト
Search
ドキュメントセンター

ApsaraMQ for RocketMQ:リスク警告のモニタリングとアラート機能の設定

最終更新日:Jan 24, 2025

ApsaraMQ for RocketMQでは、CloudMonitorを使用してアラートルールを設定できます。 これにより、インスタンスのステータスと主要なメトリックをリアルタイムで監視でき、実稼働環境でリスク警告を実装するための最も早い機会に例外通知を受け取ることができます。

背景情報

ApsaraMQ for RocketMQは、フルマネージドメッセージングサービスを提供します。 ApsaraMQ for RocketMQは、インスタンスの各エディションにサービスレベル契約 (SLA) も提供します。 1秒あたりのメッセージングトランザクション (TPS) やメッセージストレージなど、各インスタンスエディションの実際のメトリックは、エディションに指定されているメトリックと同じです。 異なるインスタンスエディションのSLAについては、「インスタンス仕様の制限」をご参照ください。

インスタンスのパフォーマンスについて心配する必要はありません。 ただし、本番環境でインスタンスの使用状況を監視して、インスタンスに指定されているしきい値を超えないようにする必要があります。 ApsaraMQ for RocketMQCloudMonitorと統合され、モニタリングおよびアラートサービスを無料で提供し、すぐに使用できます。 サービスを使用して, 次の项目を监视できます。

  • インスタンスの使用状況

    実際のインスタンス使用量が仕様の制限を超えている場合、ApsaraMQ for RocketMQはインスタンスを強制的にスロットルします。 インスタンススロットリングによって引き起こされる障害を防ぐために、事前にインスタンス使用アラートを設定し、過剰な使用リスクが検出されたときにインスタンス設定をアップグレードできます。

  • ビジネス論理エラー

    メッセージの送受信時にエラーが発生することがあります。 呼び出しエラーアラートを設定して、エラーを検出および修正し、ビジネスへの悪影響を防ぐことができます。

  • パフォーマンスメトリクス

    応答時間 (RT) やメッセージ遅延などのパフォーマンスメトリックがメッセージシステムに必要な場合は、ビジネスリスクを防ぐために、対応するメトリックアラートを事前に設定できます。

アラートを設定するためのルール

ApsaraMQ for RocketMQは、さまざまなメトリクスとモニタリングおよびアラート項目を提供します。 詳細については、「メトリックの詳細」および「メトリック」をご参照ください。 モニタリング項目は、リソース使用量、メッセージングパフォーマンス、およびメッセージング例外に分類できます。

本番環境で蓄積されたベストプラクティスに基づいて、次の表に記載されているルールに従ってアラートを設定することをお勧めします。

説明

以下のモニタリング項目は、Alibaba Cloudが推奨する基本設定です。 ApsaraMQ for RocketMQには、その他のモニタリング項目もあります。 ビジネス要件に基づいて、きめ細かい方法でアラートを設定できます。 詳細については、「モニタリングとアラート」をご参照ください。

カテゴリ

モニタリングアイテム

設定のタイミングと理由

関连担当者

リソース使用量

  • インスタンスでメッセージを送信するために開始されたAPI呼び出しの数

  • インスタンスでメッセージを受信するために開始されたAPI呼び出しの数

  • インターネットアウトバウンド帯域幅

  • インスタンスの作成直後にこの項目を設定することを推奨します。

  • インスタンスのリソース使用量は、1つのトピックまたはグループによって決定されません。 インスタンスの全体的なリソース使用量を考慮する必要があります。

リソースO&Mエンジニア

メッセージングのパフォーマンス

  • トピックでTPSを送信するメッセージ

  • コンシューマーグループでTPSを受信するメッセージ

  • コンシューマーグループでのメッセージの蓄積

  • コンシューマグループの消費遅延時間

  • ビジネスの開始直後にこれらの項目を設定することを推奨します。

  • ビジネスの開始後、ビジネスのメッセージングパフォーマンスを見積もる必要があります。

  • リソースO&Mエンジニア

  • ビジネス开発者

メッセージング例外

  • デッドレターメッセージの生成

  • スロットリングが発生する回数

  • ビジネスの開始直後にこれらの項目を設定することを推奨します。

  • ビジネスの立ち上げ後、メッセージの作成中に発生する可能性のある障害を予測する必要があります。 これは問題のトラブルシューティングに役立ちます。

  • リソースO&Mエンジニア

  • ビジネス开発者

アラートを設定する手順

  1. ApsaraMQ for RocketMQコンソールにログインします。 左側のナビゲーションウィンドウで、インスタンス数 をクリックします。

  2. 上部のナビゲーションバーで、中国 (杭州) などのリージョンを選択します。 [インスタンス] ページで、管理するインスタンスの名前をクリックします。

  3. 左側のナビゲーションウィンドウでモニタリングおよびアラート をクリックします。 表示されるページの左上隅にある アラートルールの作成 をクリックします。

ベストプラクティス

メッセージを送受信するために開始されたAPI呼び出しの数に関するアラートの設定

  • 背景: ApsaraMQ for RocketMQでは、メッセージを送受信するために開始されるAPI呼び出しの数は、1秒あたりのメッセージングトランザクション (TPS) によって測定されます。 ApsaraMQ for RocketMQ 5.0インスタンスごとにピークメッセージングTPSが指定されます。 インスタンスでメッセージを送受信するために開始されるAPI呼び出しの数がピークメッセージングTPSを超えた場合、インスタンスはスロットリングされます。 メッセージングTPSの制限については、「インスタンス仕様の制限」をご参照ください。

  • アラートを設定しないことによるリスク: アラートを設定しない場合、API呼び出しの数が仕様の制限を超える前にアラートを受信することはできません。 その結果、インスタンスが抑制され、特定のメッセージの送受信に失敗します。

  • 設定のタイミング: インスタンスが作成され、メッセージを送信するTPSとメッセージを受信するTPSの比率が指定された後に、アラートを設定することを推奨します。 メッセージを送信するTPSとメッセージを受信するTPSの比率を変更するには、次の手順を実行します。

    1. [インスタンスの詳細] ページで、[基本情報] タブをクリックします。

    2. 表示されるページの右上隅にある [編集] をクリックします。 [設定の変更] パネルの [メッセージング要求比率の変更] セクションで、メッセージを送信するTPSとメッセージを受信するTPSの比率を変更します。

インスタンスでメッセージを送信するために開始されたAPI呼び出しの数に関するアラートを設定する

image

  • 推奨しきい値: アラートしきい値を、メッセージング送信のピークTPSの70% に設定することを推奨します。 たとえば、メッセージ送信のピークTPSが5,000の場合、しきい値を3,500に設定します。

    • Professional EditionおよびEnterprise Platinum Editionインスタンスは、柔軟なTPS機能をサポートしています。 この機能を有効にし、アラートしきい値をメッセージ送信のピークTPSとメッセージ送信のピーク弾性TPSの合計の70% に設定できます。

    • サーバーレスインスタンスは、適応弾性機能をサポートしています。 この機能を有効にし、アラートしきい値をメッセージ送信のピーク弾性TPSの70% に設定できます。

    • ApsaraMQ for RocketMQコンソールの [インスタンスの詳細] ページで、メッセージ送信のピークTPSとメッセージ送信のピークelastic TPSを確認できます。

  • アラート処理: メッセージ送信のために開始されたAPI呼び出しの数に関するアラートを受信した後、次の手順を実行してアラートを処理することを推奨します。

    1. [インスタンスの詳細] ページで、[ダッシュボード] タブをクリックします。

    2. [現在の制限関連インジケータ] セクションで、[生産TPS水位]生産TPS最大値曲線を表示して、アラートしきい値に達した時刻を確認します。

    3. [インスタンスの概要] セクションで、[プロデューサーからサーバーに送信されたメッセージのレート (バー /分)] の曲線を表示します。 次に、アラートしきい値に達した時間に基づいて、メッセージ送信のTPSが異常であるトピックを見つけ、ビジネスの変更が正常かどうかを判断します。

    4. ビジネスの変化が異常な場合は、ユーザーに連絡してさらに分析してください。

    5. ビジネスの変更が正常な場合、インスタンスの仕様は正常なビジネス操作を維持するには不十分です。 この場合、インスタンス設定をアップグレードすることを推奨します。 詳細については、「インスタンス設定のアップグレードまたはダウングレード」をご参照ください。

インスタンスでメッセージを受信するために開始されたAPI呼び出しの数に関するアラートを設定する

image

  • 推奨しきい値: アラートしきい値をメッセージ受信のピークTPSの70% に設定することを推奨します。 例えば、メッセージ受信のピークTPSが5,000である場合、閾値を3,500に設定する。

    • Professional EditionおよびEnterprise Platinum Editionインスタンスは、柔軟なTPS機能をサポートしています。 この機能を有効にし、アラートしきい値をメッセージ受信のピークTPSとメッセージ受信のピークエラスティックTPSの合計の70% に設定できます。

    • サーバーレスインスタンスは、適応弾性機能をサポートしています。 この機能を有効にし、アラートしきい値をメッセージ受信のピーク弾性TPSの70% に設定できます。

    • ApsaraMQ for RocketMQコンソールの [インスタンスの詳細] ページで、メッセージ受信のピークTPSとメッセージ受信のピークelastic TPSを確認できます。

  • アラート処理: メッセージ受信のために開始されたAPI呼び出しの数に関するアラートを受信した後、次の手順を実行してアラートを処理することを推奨します。

    1. On theインスタンスの詳細ページで、ダッシュボードタブをクリックします。

    2. [現在の制限関連インジケータ] セクションで、[消費TPS水位][消費TPS最大値] 曲線を表示して、アラートしきい値に達した時刻を判断します。

    3. [インスタンスの概要] セクションで、サーバーからコンシューマーに配信されるメッセージのレート (1分あたり) の曲線を表示します。 次に、アラートしきい値に達した時間に基づいて、メッセージ受信のTPSが異常であるグループを見つけ、ビジネスの変更が正常かどうかを判断します。

    4. ビジネスの変化が異常な場合は、ユーザーに連絡してさらに分析してください。

    5. ビジネスの変更が正常な場合、インスタンスの仕様は正常なビジネス操作を維持するには不十分です。 この場合、インスタンス設定をアップグレードすることを推奨します。 詳細については、「インスタンス設定のアップグレードまたはダウングレード」をご参照ください。

プロデューサーが送信したメッセージ数またはコンシューマーが1分あたりに受信したメッセージ数に関するアラートの設定

  • 背景: ApsaraMQ for RocketMQは、トピックおよび消費者グループごとにメッセージングTPSを監視するためのメトリックを提供します。 メトリックを使用して、特定のビジネスアイテムのメッセージングTPSを監視し、ビジネス規模を把握できます。

  • アラートを設定しないことによるリスク: トピック内のメッセージングTPSは、トピック内のメッセージを送受信するために開始できるAPI呼び出しの数を指定します。 アラートを設定しない場合、トラフィックがゼロになるまで、またはトラフィックのスパイクが発生するまで、アラートを受信できません。 これは予期しないリスクを引き起こす可能性があります。

  • 設定のタイミング: ビジネスが安定した後にアラートを設定することを推奨します。

プロデューサーが1分あたりに送信するメッセージ数に関するアラートの設定

image

  • 推奨しきい値: ビジネスが安定した後のトラフィック量に基づいてしきい値を設定することを推奨します。

  • アラート処理: 1分あたりにプロデューサーから送信されたメッセージ数に関するアラートを受信した後、次の手順を実行してアラートを処理することを推奨します。

    1. [トピック] ページで、アラートルールで設定されたトピックの名前をクリックします。

    2. [トピックの詳細] ページで、[ダッシュボード] タブをクリックします。

    3. メッセージボリューム (ピース /分)プロダクションカーブを表示します。 次に、ビジネスモデルに基づいて変更が正常かどうかを判断します。

コンシューマーが1分あたりに受信したメッセージ数に関するアラートの設定

image

  • 推奨しきい値: ビジネスが安定した後のトラフィック量に基づいてしきい値を設定することを推奨します。

  • アラート処理: コンシューマが1分あたりに受信したメッセージ数に関するアラートを受信した後、次の手順を実行してアラートを処理することを推奨します。

    1. [グループ] ページで、アラートルールで設定されたグループのIDをクリックします。

    2. [グループの詳細] ページで、[ダッシュボード] タブをクリックします。

    3. [メッセージの生成率と消費率の傾向][生成率 (バー /分)] 曲線を表示します。 次に、ビジネスモデルに基づいて変更が正常かどうかを判断します。

インターネット送信帯域幅アラートの設定

  • 背景: ApsaraMQ for RocketMQ 5.0インスタンスはインターネットアクセス機能をサポートしています。 インターネットアクセスはアウトバウンド帯域幅の影響を受けます。 帯域幅制限を超えると、インターネットへのアクセスが危険にさらされる可能性があります。

  • アラートを設定しないことによるリスク: アラートを設定しない場合、インスタンスのインターネットトラフィック使用量が帯域幅制限を超えた場合、アラートを受信できません。 これにより、クライアント呼び出し中にパケット損失やタイムアウトや障害などの問題が発生します。

  • 設定のタイミング: サーバーレス以外のインスタンスを作成し、インターネットアクセス機能を有効にした後に、アラートを設定することを推奨します。

    説明

    サーバーレスインスタンスは柔軟な帯域幅をサポートします。 サーバーレスインスタンスのインターネットアウトバウンド帯域幅アラートを設定する必要はありません。

image

  • 推奨しきい値: アラートしきい値を仕様制限の70% に設定することを推奨します。 トラフィック帯域幅の収集に使用されるツールは、トラフィック帯域幅の50% のみを収集できます。 したがって、しきい値を仕様制限の35% に設定できます。 たとえば、購入したインスタンスの帯域幅制限が1メガバイト/秒の場合、アラートしきい値を43,750ビット /秒に設定します。 インターネット帯域幅は、ApsaraMQ for RocketMQコンソールの [インスタンスの詳細] ページの [基本情報] タブの [実行中の情報] セクションで確認できます。

    説明

    しきい値を計算するときは、まずMB/sをビット /sに変換します。 前の例では、1 MBは、次の式に基づいて125,000ビット /秒に変換されます。1メガバイト/秒=1 × 10 ^ 6ビット /秒= (1 × 10 ^ 6)/8ビット /秒=125,000ビット /秒。 そして、125,000ビット /s × 0.7 × 0.5 = 43,750ビット /sの式を用いて閾値を算出する。

  • アラート処理: インターネットアウトバウンド帯域幅アラートを受信した後、次の手順を実行してアラートを処理することを推奨します。

    1. [インスタンスの詳細] ページで、[ダッシュボード] タブをクリックします。

    2. [課金メトリックの概要] セクションで、パブリックネットワークのダウンリンクトラフィック帯域幅ダウンリンク帯域幅曲線を表示して、アラートしきい値に達した時刻を判断します。 しきい値の単位は、メトリックの単位と一致する必要があることに注意してください。

    3. [インスタンスの概要] セクションで、[プロデューサーからサーバーに送信されたメッセージのレート (バー /分)] および [サーバーからコンシューマーに配信されたメッセージのレート (1分あたり)] の曲線を表示します。 次に、アラートのしきい値に達した時間に基づいて、データが異常なトピックとグループを見つけ、ビジネスの変化が正常かどうかを分析します。

    4. ビジネスの変化が異常な場合は、ユーザーに連絡してさらに分析してください。

    5. ビジネスの変更が正常な場合、インスタンスの仕様は正常なビジネス操作を維持するには不十分です。 この場合、インスタンス設定をアップグレードすることを推奨します。 詳細については、「インスタンス設定のアップグレードまたはダウングレード」をご参照ください。

メッセージ蓄積アラートの設定

説明

変動およびエラーは、メッセージ蓄積に関する統計に存在し得る。 蓄積されたメッセージのしきい値を100未満に設定しないことを推奨します。 蓄積されたメッセージの数が少なくてもビジネスに影響がある場合は、メッセージの蓄積を監視するように消費遅延時間アラートを設定することを推奨します。

  • 背景: ApsaraMQ for RocketMQでは、コンシューマーグループごとにメッセージの蓄積を監視できます。 メッセージ蓄積アラートを使用して、メッセージ蓄積によって引き起こされる障害を防ぐことができます。

  • アラートを設定しないことによるリスク: メッセージの蓄積は、ApsaraMQ for RocketMQの典型的なシナリオと機能です。 メッセージをリアルタイムで処理する必要があるシナリオでは、メッセージの蓄積によるビジネスへの悪影響を防ぐために、蓄積されたメッセージの数を監視および管理する必要があります。

  • 設定のタイミング: ビジネスが安定した後にアラートを設定することを推奨します。

image

  • 推奨しきい値: ビジネスの実際のパフォーマンスに基づいてしきい値を設定することを推奨します。

  • アラート処理: メッセージ蓄積アラートを受信した後、次の手順を実行してアラートを処理することを推奨します。

    1. [グループ] ページで、アラートルールで設定されたグループのIDをクリックします。

    2. [グループの詳細] ページで、[ダッシュボード] タブをクリックします。

    3. 累積関連インジケーター累積量カーブを表示します。 次に、蓄積されたメッセージの変化傾向を分析し、メッセージ蓄積の開始時間を見つけます。

    4. ビジネスの変更とアプリケーションログに基づいて、メッセージの蓄積の原因を分析します。 蓄積されたメッセージの消費メカニズムについては、「コンシューマタイプ」をご参照ください。

    5. メッセージの蓄積の原因に基づいて、コンシューマアプリケーションをスケールアウトするか、消費ロジックの欠陥を修正するかを決定します。

消費遅延時間アラートの設定

説明

消費遅延時間は、消費者グループ内の最初の消費されていないメッセージの遅延時間に基づいて計算される。 消費遅延時間は累積的であり、ビジネスの変化に敏感です。 消費遅延時間アラートを受信した後、少数のメッセージまたはすべてのメッセージが遅延しているかどうかを判断する必要があります。

  • 背景: ApsaraMQ for RocketMQでは、消費者グループごとに消費遅延を監視できます。 消費遅延時間アラートは、メッセージ蓄積を分析するための詳細なメトリックを提供します。

  • アラートを設定しないことによるリスク: メッセージの蓄積は、ApsaraMQ for RocketMQの典型的なシナリオと機能です。 メッセージをリアルタイムで処理する必要があるシナリオでは、メッセージの蓄積によるビジネスへの悪影響を防ぐために、蓄積されたメッセージの数を監視および管理する必要があります。

  • 設定のタイミング: ビジネスが安定した後にアラートを設定することを推奨します。

image

  • 推奨しきい値: ビジネスの実際のパフォーマンスに基づいてしきい値を設定することを推奨します。

  • アラート処理: 消費遅延時間アラートを受け取った後、次の手順を実行してアラートを処理することを推奨します。

    1. [グループ] ページで、アラートルールで設定されたグループのIDをクリックします。

    2. [グループの詳細] ページで、[ダッシュボード] タブをクリックします。

    3. 累積関連インジケーター累積量カーブを表示します。 次に、蓄積されたメッセージの変化傾向を分析し、メッセージ蓄積の開始時間を見つけます。

    4. ビジネスの変更とアプリケーションログに基づいて、メッセージの蓄積の原因を分析します。 蓄積されたメッセージの消費メカニズムについては、「コンシューマタイプ」をご参照ください。

    5. メッセージの蓄積の原因に基づいて、コンシューマアプリケーションをスケールアウトするか、消費ロジックの欠陥を修正するかを決定します。

スロットリングの発生回数に関するアラートの設定

  • 背景: ApsaraMQ for RocketMQでは、特定のインスタンスでスロットルをトリガーするイベントをアラートメトリックとして使用できます。 これは、ビジネスへの悪影響を理解するのに役立ちます。

  • アラートを設定しないことによるリスク: スロットリングが発生する回数が多い場合は、トラフィック使用量が仕様の制限を頻繁に超えていることを示します。 この場合、インスタンス設定をアップグレードすることを推奨します。

  • 設定のタイミング: ビジネスが安定した後にアラートを設定することを推奨します。

    • インスタンスの作成後にインスタンスでスロットリングが発生する回数に関するアラートを設定することを推奨します。

    • ビジネスが安定した後、トピックまたはコンシューマーグループでスロットリングが発生する回数に関するアラートを構成することをお勧めします。

image

  • 推奨しきい値: ビジネスの実際のパフォーマンスに基づいてしきい値を設定することを推奨します。

  • アラート処理: スロットリングの発生回数に関するアラートを受信した後、次の手順を実行してアラートを処理することを推奨します。

    1. [インスタンスの詳細] ページで、[ダッシュボード] タブをクリックします。

    2. [現在の制限関連インジケータ] セクションで、[制限付きリクエストの配布 (本番)] の曲線を表示します。 次に、スロットリングが発生する時間とスロットリングのルールを分析します。

    3. [インスタンスの概要] セクションで、[プロデューサーからサーバーに送信されたメッセージのレート (バー /分)] の曲線を表示します。 次に、スロットリングが発生した時間とスロットリングのルールに基づいてデータが異常なトピックを見つけ、トピックの曲線を表示して、トラフィックの増加がビジネス要件を満たしているかどうかを判断します。

    4. トラフィックの増加がビジネス要件を満たしている場合は、インスタンス設定をアップグレードします。 それ以外の場合は、問題のトラブルシューティングを行います。