Microservices Engine (MSE) は、ご利用の MSE インスタンス全体の CPU 使用率、メモリ使用量、ガベージコレクション (GC) パフォーマンス、および容量制限をモニターする組み込みアラートルールを提供します。これらのルールを有効にすると、いずれかのメトリックがしきい値を超えたときに連絡先グループに通知されるため、本番トラフィックに影響を与える前に問題を検出して解決できます。
前提条件
開始する前に、以下を確認してください。
MSE インスタンス (Microservices Registry、Nacos、ZooKeeper、または Ingress gateway)
少なくとも1つのアラートグループ
デフォルトのアラートルールを有効にする
MSE コンソールにログインし、上部のナビゲーションバーでリージョンを選択します。
左側のナビゲーションウィンドウで、[マイクロサービスレジストリ] > [インスタンス] を選択します。
[インスタンス] ページで、ターゲットインスタンスを見つけ、「操作」列の [その他] > [デフォルトアラートの設定] を選択します。
[Configure Default Alert] ダイアログボックスで、[Alert Contact Group] に連絡先グループを選択し、[OK] をクリックします。
「OK」をクリックすると、MSE は選択した連絡先グループにデフォルトのアラートルールを追加します。これらのルールは、インスタンスタイプおよびエディションによって異なります。詳細については、以下のセクションをご参照ください。
デフォルトのアラートルール
Microservices Registry
Basic Edition、Developer Edition、および Professional Edition のインスタンスに適用されます。
| アラートルール | しきい値 | 期間 | 説明 | ソリューション |
|---|---|---|---|---|
| インスタンスの CPU 負荷が過度に高い | ノードあたりの CPU 使用率 > 80% | 継続的 | CPU 使用率が高い場合、バージョンに欠陥があるか、容量が不足している可能性があります。 | 1. [リスク管理] ページを確認し、推奨される修正手順に従ってください。2. アラートが継続する場合は、インスタンスをスケールアウトしてください。 |
| インスタンスのメモリ使用量が過度に高い | ノードあたりのメモリ使用量 > 90% | 継続的 | メモリ使用量が高い場合、Out-of-Memory (OOM) エラーやサービスの中断につながる可能性があります。 | 1. [リスク管理] ページを確認し、提案された修正に従ってください。2. アラートが解消されない場合は、インスタンスをスケールアウトしてください。 |
ZooKeeper
Basic Edition、Developer Edition、および Professional Edition
| アラートルール | しきい値 | 期間 | 説明 | ソリューション |
|---|---|---|---|---|
| ZooKeeper インスタンスでの CMS GC の発生が過度 | Concurrent Mark Sweep (CMS) GC カウント > 5 | 1 分 | 頻繁な CMS GC サイクルは、メモリ負荷またはインスタンス容量の不足を示します。 | 1. インスタンスをスケールアウトしてください。 2. アラートが継続する場合は、インスタンスバージョンに既知の欠陥があるか確認し、必要に応じてスペックアップしてください。 |
| ZooKeeper インスタンスでの CMS GC 期間が過度に長い | CMS GC 期間 > 6 秒 | 1 分 | 長い GC 一時停止は、リクエストのタイムアウトやセッションの切断を引き起こす可能性があります。 | 1. インスタンスをスケールアウトしてください。 2. アラートが継続する場合は、インスタンスバージョンに既知の欠陥があるか確認し、必要に応じてスペックアップしてください。 |
Serverless Edition
| アラートルール | しきい値 | 期間 | 説明 | ソリューション |
|---|---|---|---|---|
| スナップショットの速度制限 | スナップショットサイズ > 20 MB (制限: 25 MB) | 継続的 | 最大スナップショットサイズは 25 MB です。20 MB を超えると、インスタンスが制限に近づいていることを意味します。 | ZooKeeper に保存されているデータを削減してください。より高い制限が必要な場合は、チケットを送信してください。 |
Nacos
Basic Edition、Developer Edition、および Professional Edition
これらのルールは、ヒープメモリの不足を示す GC パフォーマンスの問題を検出します。
| アラートルール | しきい値 | 期間 | 説明 | ソリューション |
|---|---|---|---|---|
| Nacos インスタンスでの Full GC の発生が過度 | Full GC カウント > 2 | 1 分 | 頻繁な Full GC の実行は、ヒープメモリの不足またはクライアント側の設定ミスを示します。 | 1. クライアントの設定ミスによって引き起こされる接続リーク、重複登録、または重複サブスクリプションがないか確認してください。 2. そのような問題がない場合は、インスタンスをスケールアウトまたはスペックアップしてください。 |
| Nacos インスタンスでの Full GC 期間が過度に長い | Full GC 期間 > 5 秒 | 1 分 | 長い Full GC の一時停止は、すべてのアプリケーションスレッドをブロックし、リクエストの失敗を引き起こします。 | 1. クライアントの設定ミスによって引き起こされる接続リーク、重複登録、または重複サブスクリプションがないか確認してください。 2. そのような問題がない場合は、インスタンスをスケールアウトまたはスペックアップしてください。 |
Basic Edition、Developer Edition、Professional Edition、および Serverless Edition
これらの容量アラートは、リソース使用量がインスタンスの制限に近づくとトリガーされます。
| アラートルール | しきい値 | 期間 | 説明 | ソリューション |
|---|---|---|---|---|
| Nacos サービス使用量が過度に高い | サービス使用量 > 90% | 継続的 | 登録されているサービスの数がインスタンスのクォータに近づいています。 | インスタンスをスケールアウトまたはスペックアップして、サービスクォータを増やしてください。 |
| Nacos サービスプロバイダー使用量が過度に高い | サービスプロバイダー使用量 > 90% | 継続的 | サービスプロバイダーの数がインスタンスのクォータに近づいています。 | インスタンスをスケールアウトまたはスペックアップして、プロバイダークォータを増やしてください。 |
| Nacos 接続使用量が過度に高い | 接続使用量 > 90% | 継続的 | 接続の数がインスタンスのクォータに近づいています。 | インスタンスをスケールアウトまたはスペックアップして、接続クォータを増やしてください。 |
| Nacos 構成使用量が過度に高い | 構成使用量 > 90% | 継続的 | 構成の数がインスタンスのクォータに近づいています。 | インスタンスをスケールアウトまたはスペックアップして、構成クォータを増やしてください。 |
| Nacos ロングポーリング使用量が過度に高い | ロングポーリング使用量 > 90% | 継続的 | ロングポーリング接続の数がインスタンスのクォータに近づいています。 | インスタンスをスケールアウトまたはスペックアップして、ロングポーリング クォータを増やしてください。 |
| Nacos サービスプロバイダーの割合の過度な減少 | プロバイダーカウントが 3 分前と比較して 50% 超減少 | 3 分 | プロバイダーカウントの急激な減少は、アップストリームサービスがダウンストリームプロバイダーとの接続性を失う原因となる可能性があります。 | 1. アプリケーションがリリースまたは再起動されているか確認してください。 2. デプロイメントが進行中でない場合は、ご利用のアプリケーションの CPU、メモリ、GC、およびネットワークリソースが正常であることを確認してください。 |
Serverless Edition
| アラートルール | しきい値 | 期間 | 説明 | ソリューション |
|---|---|---|---|---|
| TPS 速度制限 | TPS 速度制限がトリガーされました | 継続的 | インスタンスで Transactions-per-second (TPS) 速度制限がアクティブ化されました。 | チケットを送信して、より高い TPS 制限をリクエストしてください。 |
| サービス容量制限 | サービス容量を超過しました | 継続的 | サービスの数がインスタンスの制限を超えています。 | チケットを送信して、より高いサービス容量をリクエストしてください。 |
| 接続制限 | 接続カウントを超過しました | 継続的 | 接続の数がインスタンスの制限を超えています。 | チケットを送信して、より高い接続制限をリクエストしてください。 |
| 構成容量制限 | 構成容量を超過しました | 継続的 | 構成の数がインスタンスの制限を超えています。 | チケットを送信して、より高い構成容量をリクエストしてください。 |
Ingress gateway
Professional Edition
| アラートルール | しきい値 | 期間 | 説明 | ソリューション |
|---|---|---|---|---|
| インスタンスの CPU 負荷が過度に高い | CPU 使用率 > 80% | 継続的 | CPU 使用率が高い場合、プラグインの問題または容量不足を示している可能性があります。 | 1. プラグインのメモリリークまたは論理エラーがないか確認してください。 2. そのような問題がない場合は、インスタンスをスケールアウトしてください。 |
| インスタンスのメモリ使用量が過度に高い | メモリ使用量 > 80% | 継続的 | メモリ使用量が高い場合、プラグインの問題または容量不足を示している可能性があります。 | 1. プラグインのメモリリークまたは論理エラーがないか確認してください。 2. そのような問題がない場合は、インスタンスをスケールアウトしてください。 |
Professional Edition および Serverless Edition
| アラートルール | しきい値 | 期間 | 説明 | ソリューション |
|---|---|---|---|---|
| ゲートウェイの精度が低い | 精度レート < 80% | 継続的 | 精度レートが低い場合、リクエストの大部分が失敗していることを示します。 | ゲートウェイの構成エラーまたはアプリケーションレベルの例外がないか確認してください。 |
| カスタムゲートウェイプラグイン例外 (回復済み) | プラグイン例外を検出しました | 継続的 | カスタムゲートウェイプラグインでエラーが発生し、自動的に回復されました。 | プラグインのロジックを確認し、根本原因を修正して再発を防いでください。 |