クラスタステータスとディスク使用率の監視のためのアラート設定 - Elasticsearch

クラスターのステータスがイエローまたはレッドに変化したり、ノードのディスク使用率や JVM ヒープ使用率が安全でないレベルに近づいたりした場合、パフォーマンスの劣化やデータ損失が発生する前に即座に通知を受ける必要があります。Alibaba Cloud Elasticsearch は Cloud Monitor と統合されており、その可視性を提供します。利用可能な方法は 2 つあります。ワンクリックアラートは、インスタンスごとの設定なしですぐに最も重要な状態をカバーします。一方、Cloud Monitor アラートでは、しきい値をカスタマイズしたり、複数のメトリックを組み合わせたり、通知を適切な連絡先にルーティングしたりできます。

前提条件

作業を開始する前に、以下の要件を満たしていることを確認してください。

Alibaba Cloud Elasticsearch インスタンス
Cloud Monitor のアラートグループ。まだ作成していない場合は、「アラート連絡先またはアラートグループの作成」をご参照ください。

ワンクリックアラートの有効化

ワンクリックアラートは Cloud Monitor によって提供され、デフォルトでは無効になっています。この機能を有効にすると、アカウント配下のすべての Elasticsearch インスタンスに対して自動的にアラートルールが作成され、インスタンスごとの構成は不要です。事前構成済みのルールは以下の項目をカバーします。

クラスターステータスの異常
ノードのディスク使用率が 75% を超える
ノードの JVM ヒープ使用率が 85% を超える

ワンクリックアラートを有効にするには:

Alibaba Cloud Elasticsearch コンソールにログインします。
左側のナビゲーションウィンドウで、Elasticsearch クラスター をクリックします。
Elasticsearch クラスター ページで、Initiative Alert をクリックします。
Initiative Alert ダイアログボックスで、Enable Now をクリックします。

ボタンに Disable Now と表示されている場合、ワンクリックアラート機能はすでに有効になっています。これ以上の操作は不要です。
Cloud Monitor コンソールで、Elasticsearch サービスの Proactive Alerting スイッチを有効にします。

機能がアクティブであることを確認するには：

Elasticsearch コンソールで、Elasticsearch クラスター ページの対象インスタンス ID をクリックします。
左側のナビゲーションウィンドウで、モニタリングとログ > クラスターモニタリング の順に選択します。
基本モニタリング タブをクリックし、右上隅の Initiative Alert ステータスを確認します。Initiative Alert に Enabled と表示されている場合、機能は有効です。

Cloud Monitor アラートの設定

カスタムしきい値、複数メトリックの条件、詳細な通知ルーティングが必要な場合は、Cloud Monitor アラートを使用します。以下の手順では、クラスターステータス、ノードのディスク使用率、ノードのヒープメモリ使用量を単一の複合メトリックルールに組み合わせる例を示します。

推奨されるメトリックとしきい値

次の表のメトリックとしきい値に基づいてアラートルールを設定します。メトリックの詳細な説明とトラブルシューティングのガイダンスについては、「メトリックの説明とトラブルシューティングの提案」をご参照ください。

メトリック	必須	アラートしきい値	注記
Cluster Status	はい	>= 2 (イエローまたはレッド)	グリーン = 0、イエロー = 1、レッド = 2
NodeDiskUtilization(%)	はい	>= 75%。80% を超えないこと
NodeHeapMemoryUtilization(%)	はい	>= 85%。90% を超えないこと
NodeCPUUtilization(%)	任意	< 95%
Node Workload Within One Minute	任意	CPU コア数の 80%	リファレンス値として使用
ClusterQueryQPS (Count/Second)	任意	テスト結果に基づく
ClusterIndexQPS (Count/Second)	任意	テスト結果に基づく
Full GC Count	任意	0 より大きい値は問題を示す
Exception Count	任意	0 より大きい値は問題を示す
Snapshot Status	任意	-1 または 0 = 正常、2 = 異常

アラートルールの作成

Cloud Monitor コンソールに移動します。
左側のナビゲーションウィンドウで、アラート > アラートルール の順に選択します。
アラートルールの作成 をクリックします。

アラートルールの作成 ページで、以下のパラメーターを設定します。ここに記載されていないパラメーターはデフォルト値を使用してください。すべてのパラメーターのリファレンスについては、「アラートルールの作成」をご参照ください。ルールの説明（複合メトリック）の設定： ルールの追加 > 複合メトリック をクリックします。ルールの説明の設定 パネルで、アラートルール 名を入力し、以下の設定を行います。

メトリックタイプ：複合メトリック
アラートレベル：警告 (Warn)
複数メトリックのアラート条件 — メトリックの追加 をクリックして、各メトリックを追加します。
- メトリック 1：Cluster ID > ClusterStatus、値 >= 2
- メトリック 2：nodeName > Node Disk Usage、平均 >= 75%
- メトリック 3：nodeName > Node Heap Memory Usage_ES Business、平均 >= 85%
メトリック間の関係：いずれかの条件が満たされた場合にアラートを生成 (||)
アラートしきい値のトリガー：3 回連続 (1 サイクル = 1 分)

アラートを外部システムにルーティングするには、高度な設定 を展開し、アラートコールバック セクションにパブリックにアクセス可能な URL を入力します。Cloud Monitor は HTTP POST リクエストを介してこの URL にアラートデータを送信します。HTTP のみがサポートされています。詳細については、「アラートコールバックの使用」をご参照ください。

パラメーター	値
製品	Elasticsearch
リソース範囲	インスタンス
関連リソース	監視対象のインスタンスを追加
ルールの説明	以下の複合メトリックの例を参照
アラート連絡先グループ	連絡先グループを選択

OK をクリックします。アラートがトリガーされると、設定された連絡先グループが指定されたチャンネル経由で通知を受け取ります。

例：ディスクアラートの設定

複数の重大度レベルでディスク使用率を監視するには、「アラートルールの作成」の手順に従い、以下の構成で シンプルメトリック ルールを使用します。

パラメーター	例となる値
アラートルール	ディスク使用率アラート
メトリックタイプ	シンプルメトリック
メトリック	nodeName > Node Disk Usage
しきい値とアラートレベル	重大：3 回連続で平均 >= 80%
	警告：3 回連続で平均 >= 75%
	情報：3 回連続で平均 >= 70%
チャートプレビュー	選択したメトリックのモニタリングチャートのプレビュー

次のステップ

各メトリックが示す内容とアラート発生時の対応方法を理解するために、「メトリックの説明とトラブルシューティングの提案」をご確認ください。
まだアラート連絡先または連絡先グループを作成していない場合は、「アラート連絡先またはアラートグループの作成」をご参照ください。