クラスターのステータスがイエローまたはレッドに変化したり、ノードのディスク使用率や JVM ヒープ使用率が安全でないレベルに近づいたりした場合、パフォーマンスの劣化やデータ損失が発生する前に即座に通知を受ける必要があります。Alibaba Cloud Elasticsearch は Cloud Monitor と統合されており、その可視性を提供します。利用可能な方法は 2 つあります。ワンクリック アラートは、インスタンスごとの設定なしですぐに最も重要な状態をカバーします。一方、Cloud Monitor アラートでは、しきい値をカスタマイズしたり、複数のメトリックを組み合わせたり、通知を適切な連絡先にルーティングしたりできます。
前提条件
作業を開始する前に、以下の要件を満たしていることを確認してください。
-
Alibaba Cloud Elasticsearch インスタンス
-
Cloud Monitor のアラートグループ。まだ作成していない場合は、「アラート連絡先またはアラートグループの作成」をご参照ください。
ワンクリック アラートの有効化
ワンクリック アラートは Cloud Monitor によって提供され、デフォルトでは無効になっています。この機能を有効にすると、アカウント配下のすべての Elasticsearch インスタンスに対して自動的にアラートルールが作成され、インスタンスごとの構成は不要です。事前構成済みのルールは以下の項目をカバーします。
-
クラスター ステータスの異常
-
ノードのディスク使用率が 75% を超える
-
ノードの JVM ヒープ使用率が 85% を超える
ワンクリックアラートを有効にするには:
-
Alibaba Cloud Elasticsearch コンソールにログインします。
-
左側のナビゲーションウィンドウで、Elasticsearch クラスター をクリックします。
-
Elasticsearch クラスター ページで、Initiative Alert をクリックします。

-
Initiative Alert ダイアログボックスで、Enable Now をクリックします。
ボタンに Disable Now と表示されている場合、ワンクリック アラート機能はすでに有効になっています。これ以上の操作は不要です。
-
Cloud Monitor コンソールで、Elasticsearch サービスの Proactive Alerting スイッチを有効にします。
機能がアクティブであることを確認するには:
-
Elasticsearch コンソールで、Elasticsearch クラスター ページの対象インスタンス ID をクリックします。
-
左側のナビゲーションウィンドウで、モニタリングとログ > クラスター モニタリング の順に選択します。
-
基本モニタリング タブをクリックし、右上隅の Initiative Alert ステータスを確認します。Initiative Alert に Enabled と表示されている場合、機能は有効です。

Cloud Monitor アラートの設定
カスタムしきい値、複数メトリックの条件、詳細な通知ルーティングが必要な場合は、Cloud Monitor アラートを使用します。以下の手順では、クラスター ステータス、ノードのディスク使用率、ノードのヒープメモリ使用量を単一の複合メトリックルールに組み合わせる例を示します。
推奨されるメトリックとしきい値
次の表のメトリックとしきい値に基づいてアラートルールを設定します。メトリックの詳細な説明とトラブルシューティングのガイダンスについては、「メトリックの説明とトラブルシューティングの提案」をご参照ください。
| メトリック | 必須 | アラートしきい値 | 注記 |
|---|---|---|---|
| Cluster Status | はい | >= 2 (イエローまたはレッド) | グリーン = 0、イエロー = 1、レッド = 2 |
| NodeDiskUtilization(%) | はい | >= 75%。80% を超えないこと | |
| NodeHeapMemoryUtilization(%) | はい | >= 85%。90% を超えないこと | |
| NodeCPUUtilization(%) | 任意 | < 95% | |
| Node Workload Within One Minute | 任意 | CPU コア数の 80% | リファレンス値として使用 |
| ClusterQueryQPS (Count/Second) | 任意 | テスト結果に基づく | |
| ClusterIndexQPS (Count/Second) | 任意 | テスト結果に基づく | |
| Full GC Count | 任意 | 0 より大きい値は問題を示す | |
| Exception Count | 任意 | 0 より大きい値は問題を示す | |
| Snapshot Status | 任意 | -1 または 0 = 正常、2 = 異常 |
アラートルールの作成
-
Cloud Monitor コンソールに移動します。
-
左側のナビゲーションウィンドウで、アラート > アラートルール の順に選択します。
-
アラートルールの作成 をクリックします。
-
アラートルールの作成 ページで、以下のパラメーターを設定します。ここに記載されていないパラメーターはデフォルト値を使用してください。すべてのパラメーターのリファレンスについては、「アラートルールの作成」をご参照ください。ルールの説明(複合メトリック)の設定: ルールの追加 > 複合メトリック をクリックします。ルールの説明の設定 パネルで、アラートルール 名を入力し、以下の設定を行います。
-
メトリックタイプ:複合メトリック
-
アラートレベル:警告 (Warn)
-
複数メトリックのアラート条件 — メトリックの追加 をクリックして、各メトリックを追加します。
-
メトリック 1:Cluster ID > ClusterStatus、値 >= 2
-
メトリック 2:nodeName > Node Disk Usage、平均 >= 75%
-
メトリック 3:nodeName > Node Heap Memory Usage_ES Business、平均 >= 85%
-
-
メトリック間の関係:いずれかの条件が満たされた場合にアラートを生成 (||)
-
アラートしきい値のトリガー:3 回連続 (1 サイクル = 1 分)
アラートを外部システムにルーティングするには、高度な設定 を展開し、アラートコールバック セクションにパブリックにアクセス可能な URL を入力します。Cloud Monitor は HTTP POST リクエストを介してこの URL にアラートデータを送信します。HTTP のみがサポートされています。詳細については、「アラートコールバックの使用」をご参照ください。
パラメーター 値 製品 Elasticsearch リソース範囲 インスタンス 関連リソース 監視対象のインスタンスを追加 ルールの説明 以下の複合メトリックの例を参照 アラート連絡先グループ 連絡先グループを選択 -
-
OK をクリックします。アラートがトリガーされると、設定された連絡先グループが指定されたチャンネル経由で通知を受け取ります。
例:ディスク アラートの設定
複数の重大度レベルでディスク使用率を監視するには、「アラートルールの作成」の手順に従い、以下の構成で シンプルメトリック ルールを使用します。
| パラメーター | 例となる値 |
|---|---|
| アラートルール | ディスク使用率アラート |
| メトリックタイプ | シンプルメトリック |
| メトリック | nodeName > Node Disk Usage |
| しきい値とアラートレベル | 重大:3 回連続で平均 >= 80% |
| 警告:3 回連続で平均 >= 75% | |
| 情報:3 回連続で平均 >= 70% | |
| チャートプレビュー | 選択したメトリックのモニタリングチャートのプレビュー |
次のステップ
-
各メトリックが示す内容とアラート発生時の対応方法を理解するために、「メトリックの説明とトラブルシューティングの提案」をご確認ください。
-
まだアラート連絡先または連絡先グループを作成していない場合は、「アラート連絡先またはアラートグループの作成」をご参照ください。