モニタリングとアラートのベストプラクティス

Cloud Monitor は、エンタープライズレベルのワンストップモニタリングソリューションです。 Hologres は、Cloud Monitor のクラウドサービスモニタリング機能と統合されています。この統合により、Cloud Monitor を使用して、ご利用の Hologres インスタンスのリソース使用量、サービスステータス、および正常性を包括的に把握できます。異常アラートをタイムリーに受信し、それに対応して、アプリケーションがスムーズに実行されるようにすることができます。このトピックでは、Cloud Monitor を使用して Hologres インスタンスのメトリックを監視し、アラートをレポートする方法について説明します。

前提条件

Hologres インスタンスを購入済みであること。

利用の推奨事項

Cloud Monitor では、Hologres インスタンスタイプに基づいてメトリックが表示されるようになりました。サポートされているタイプには、Hologres (読み取り専用セカンダリインスタンス)、Hologres (レイクハウスアクセラレーション)、Hologres (汎用)、および Hologres (コンピューティンググループ) が含まれます。各インスタンスタイプには、サービスの異常をより適切に監視し、対処するのに役立つ特定のメトリックがあります。モニタリングエクスペリエンスを向上させるために、一般的な Hologres モニタリングビューから、特定のインスタンスタイプのビューに切り替えることができます。

Cloud Monitor のメトリック

Cloud Monitor がサポートする Hologres インスタンスのメトリックの詳細については、「Hologres コンソールでのモニタリングメトリック」をご参照ください。

モニタリングメトリックの表示

Cloud Monitor コンソールにログインして、メトリックを表示できます。

Cloud Monitor コンソールにログインします。
左側のナビゲーションウィンドウで、[クラウドサービスモニタリング] をクリックします。
[ビッグデータコンピューティング] エリアで、ターゲットインスタンスタイプである **[Hologres (読み取り専用セカンダリインスタンス)]**、**[Hologres (レイクハウスアクセラレーション)]**、**[Hologres (汎用)]**、または **[Hologres (コンピューティンググループ)]** をクリックします。これにより、Hologres モニタリングダッシュボードが開きます。
リージョンの横にあるアイコンをクリックし、ターゲットリージョンを選択します。
ターゲットの インスタンス ID をクリックするか、Actions 列の [モニタリングチャート] をクリックして、インスタンスメトリックのステータスを表示します。

説明
カスタムの時間範囲を指定して、インスタンスメトリックを表示できます。モニタリングデータは最大 30 日間保持されます。

ワンクリックアラート

Hologres は、Cloud Monitor のワンクリックアラート機能をサポートしています。この機能は、すべてのインスタンスにデフォルトのアラートルールを設定します。有効にすると、CPU 使用率、ディスク使用率、メモリ使用量、接続数などのメトリックに対してアラートルールが作成されます。これらのルールは、ご利用の Alibaba Cloud アカウント配下にあるすべての Hologres インスタンスに適用されます。これにより、一般的で重要なメトリックに対して異常アラートを作成し、問題を迅速に検出できます。デフォルトのアラートルールは次のとおりです：

平均接続使用率 (情報) が 3 回連続で 95% 以上の場合、Alibaba Cloud アカウントのアラート連絡先 にアラートが送信されます。
平均ストレージ使用量 (警告) が 3 回連続で 90% を超える場合、Alibaba Cloud アカウントのアラート連絡先 にアラートが送信されます。
平均メモリ使用量 (警告) が 3 回連続で 90% 以上の場合、Alibaba Cloud アカウントのアラート連絡先 にアラートが送信されます。
平均 CPU 使用率 (情報) が 3 回連続で 99% 以上の場合、Alibaba Cloud アカウントのアラート連絡先 にアラートが送信されます。

説明

デフォルトでは、アラートチェック間隔は 5 分です。この間隔はカスタマイズできます。

アラートルールの作成

デフォルトのワンクリックアラートに加えて、ビジネスニーズに基づいて、より多くのモニタリングメトリックに対してアラートを設定できます。手順は次のとおりです：

Cloud Monitor コンソールにログインします。
左側のナビゲーションウィンドウで、[アラートサービス] > [アラートルール] を選択します。
[アラートルール] ページで、[アラートルールの作成] をクリックし、プロンプトに従ってアラート情報を設定します。詳細については、「アラートルールの作成」をご参照ください。

アラート設定のベストプラクティス

さまざまな Hologres モニタリングメトリックに推奨されるアラート設定は次のとおりです：

インスタンスの CPU 使用率 (%)

このメトリックは、Hologres にリソースのボトルネックがあるかどうか、およびリソースが完全に利用されているかどうかを示します。推奨されるアラート：

アラートルール:
- 緊急：「インスタンスの CPU 使用率が 60 回連続 (1 エポック = 1 分) で 99% 以上」。このルールは、クラスターのリソース使用量を効果的に監視します。使用率が長時間高いままである場合は、クラスターをスケールアウトする必要があります。
- 警告：「インスタンスの CPU 使用率が 10 回連続 (1 エポック = 1 分) で 99% 以上」。このルールにより、サービスの変更に起因する CPU 使用率の最大化を迅速に検知できます。
インスタンスの CPU 使用率が一度 100% に達したときにトリガーされるアラートは設定しないでください。 CPU 使用率が一時的に 100% に急上昇しても、システムの過負荷や異常を示すものではなく、効率的なリソース利用を表します。

CPU アラートのしきい値を低く設定しすぎないでください。タスクが実行されていない場合でも、システムコンポーネントがアクティブになり、一部のリソースを消費する可能性があります。

ワーカーノードの CPU 使用率 (%)

このメトリックは、Hologres の各ワーカーノードにリソースのボトルネックがあるかどうか、およびリソースが完全に利用されているかどうかを示します。推奨されるアラート：

アラートルール
- 緊急：「ワーカーノードの CPU 使用率が 60 回連続 (1 エポック = 1 分) で 99% 以上」。このルールは、各ワーカーノードのリソース使用量を効果的に監視します。使用率が長時間高いままである場合は、クラスターをスケールアウトする必要があります。
- 警告：「ワーカーノードの CPU 使用率が 10 回連続 (1 エポック = 1 分) で 99% 以上」。このルールにより、サービスの変更に起因する CPU 使用率の最大化を迅速に検知できます。
ワーカーノードの CPU 使用率が一度 100% に達したときにトリガーされるアラートは設定しないでください。 CPU 使用率が一時的に 100% に急上昇しても、システムの過負荷や異常を示すものではなく、効率的なリソース利用を表します。
CPU アラートのしきい値を低く設定しすぎないでください。タスクが実行されていない場合でも、システムコンポーネントがアクティブになり、一部のリソースを消費する可能性があります。

インスタンスのメモリ使用量 (%)

このメトリックは、インスタンスのメモリ使用量を反映します。推奨されるアラート：

アラートルール
- 緊急：「インスタンスのメモリ使用量が 60 回連続 (1 エポック = 1 分) で 99% 以上」。このルールは、クラスターのメモリ使用量を効果的に監視します。使用率が長時間高いままである場合は、クラスターをスケールアウトする必要があります。
- 警告：「インスタンスのメモリ使用量が 10 回連続 (1 エポック = 1 分) で 99% 以上」。このルールにより、サービスの変更に起因するメモリ使用率の最大化を迅速に検知できます。
メモリアラートのしきい値を低く設定しすぎないでください。メモリはクエリの実行だけでなく、メタデータやキャッシュにも使用されます。インスタンスがアイドル状態の場合でも、一定量のメモリが消費されます。

ワーカーノードのメモリ使用量 (%)

このメトリックは、ワーカーノードのメモリ使用量を反映します。推奨されるアラート：

アラートルール
- 緊急：「ワーカーノードのメモリ使用量が 60 回連続 (1 エポック = 1 分) で 99% 以上」。このルールは、クラスターのメモリ使用量を効果的に監視します。使用率が長時間高いままである場合は、クラスターをスケールアウトする必要があります。
- 警告：「ワーカーノードのメモリ使用量が 10 回連続 (1 エポック = 1 分) で 99% 以上」。このルールにより、サービスの変更に起因するメモリ使用率の最大化を迅速に検知できます。
メモリアラートのしきい値を低く設定しすぎないでください。メモリはクエリの実行だけでなく、メタデータやキャッシュにも使用されます。インスタンスがアイドル状態の場合でも、一定量のメモリが消費されます。

接続使用率が最も高い FE の接続使用率 (%)

このメトリックは、各 FE ノードの最大接続使用率を反映します。推奨されるアラートルールは次のとおりです：

警告：「接続使用率が最も高い FE の接続使用率が 5 回連続 (1 エポック = 1 分) で 95% 以上」。このルールは、クラスターの接続使用率を効果的に監視し、アイドル接続を迅速にクリアするのに役立ちます。

WAL 送信者使用率が最も高い FE の WAL 送信者使用率 (%)

このメトリックは、各 FE ノードの最大 WAL 送信者使用率を反映します。推奨されるアラートルールは次のとおりです：

警告：「WAL 送信者使用率が最も高い FE の WAL 送信者使用率が 5 回連続 (1 エポック = 1 分) で 95% 以上」。このルールは、クラスターの WAL 送信者使用率を効果的に監視するのに役立ちます。

インスタンスで実行中のクエリの最長期間 (ミリ秒)

このメトリックは、インスタンス内に長時間実行クエリがあるかどうかを効果的に監視するのに役立ちます。推奨されるアラートルールは次のとおりです：

警告：「インスタンスで実行中のクエリの最長期間が 10 回連続 (1 エポック = 1 分) で 3,600,000 ミリ秒以上」。

Serverless Computing で実行中のクエリの最長期間 (ミリ秒)

このメトリックは、サーバーレスクラスターでのタスク実行を効果的に監視するのに役立ちます。タスクの実行時間が長すぎる場合は、迅速にキャンセルできます。推奨されるアラートルールは次のとおりです：

警告：「Serverless Computing で実行中のクエリの最長期間が 10 回連続 (1 エポック = 1 分) で 3,600,000 ミリ秒以上」。

失敗したクエリの QPS (カウント)

このメトリックは、インスタンス内の失敗したクエリの数を反映します。失敗したクエリに対してアラートを設定して、クエリの実行ステータスを常に把握できます。推奨されるアラートルールは次のとおりです：

警告：「失敗したクエリの QPS が 10 回連続 (1 エポック = 1 分) で 10 カウント以上」。インスタンスで失敗したクエリが多い場合は、スロークエリログで失敗の詳細を確認し、適切な措置を講じてください。

FE 再生レイテンシ (ミリ秒)

このメトリックは、各 FE の再生時間を反映します。再生時間が長い場合は再生が遅いことを示しており、FE のスタックが原因である可能性があります。これにより、クエリがスタックする可能性があり、直ちに対応が必要です。推奨されるアラート：

アラートルール

警告：「FE 再生レイテンシが 10 回連続 (1 エポック = 1 分) で 300,000 ミリ秒以上」。アラートがトリガーされた場合は、HoloWeb の [アクティブクエリ] に移動して長時間実行クエリを確認し、キャンセルを試みることができます。
FE 再生レイテンシのしきい値を低く設定しすぎないでください。インスタンスでメタデータが変更されるたびに FE の再生が発生します。通常、数秒の範囲の FE 再生時間は正常です。

プライマリ/セカンダリ同期遅延 (ミリ秒)

このメトリックは、読み取り専用セカンダリインスタンスに対してのみ表示され、プライマリ/セカンダリ同期遅延を反映します。推奨されるアラートルールは次のとおりです：

警告：「プライマリ/セカンダリ同期遅延が 10 回連続 (1 エポック = 1 分) で 600,000 ミリ秒以上」。

各 DB で統計情報が欠落しているテーブル数 (カウント)

このメトリックは、Auto Analyze の品質を反映します。テーブルの統計情報が長時間欠落している場合は、手動で ANALYZE コマンドを実行できます。詳細については、「ANALYZE と AUTO ANALYZE」をご参照ください。推奨されるアラート：

アラートルール

警告：「各 DB で統計情報が欠落しているテーブル数が 60 回連続 (1 エポック = 1 分) で 10 カウント以上」。
しきい値を低く設定しすぎないでください。インスタンス内のテーブル数が多いと、Auto Analyze の実行も遅くなる可能性があります。

一般的なモニタリング問題のトラブルシューティング

モニタリングメトリックが予期せず変動したり、アラートがトリガーされたりした場合は、「モニタリングメトリックに関するよくある質問」を参照して、問題のトラブルシューティングと解決を行ってください。

API を使用したモニタリングメトリックへのアクセス

Cloud Monitor コンソールに加えて、Cloud Monitor はカスタムダッシュボードや API など、モニタリングメトリックにアクセスする他の方法も提供しています。これらのメソッドは、モニタリングデータへのより柔軟なアクセスを提供します。

API を使用して Cloud Monitor にアクセスするには、「クラウドサービスモニタリング」をご参照ください。
カスタムダッシュボードを使用するには、「カスタムダッシュボードの管理」をご参照ください。
ARMS を使用して Hologres モニタリングにアクセスするには、「統合ガイド」をご参照ください。

RAM ユーザーへの Cloud Monitor データ表示権限の付与

デフォルトでは、Resource Access Management (RAM) ユーザーは Cloud Monitor のメトリック情報を表示できません。 RAM ユーザーに必要な権限を付与する必要があります。

ご利用の Alibaba Cloud アカウントを使用して Resource Access Management (RAM) コンソールにログインし、RAM ユーザーに次の権限を付与します。権限の付与方法の詳細については、「RAM ユーザー権限の管理」をご参照ください。

説明

必要に応じて権限を選択してください。

権限名	権限機能の説明
AliyunCloudMonitorFullAccess	Cloud Monitor を管理する権限。
AliyunCloudMonitorReadOnlyAccess	Cloud Monitor の読み取り専用権限。
AliyunCloudMonitorMetricDataReadOnlyAccess	Cloud Monitor の時系列メトリックデータにアクセスする権限。