CloudMonitor は、クラウド上の企業にオールインワンの監視ソリューションを提供します。CloudMonitor のクラウドサービス監視機能は Hologres をサポートしています。CloudMonitor を使用して、Hologres インスタンスのリソース使用量、ビジネス運用、および正常性ステータスを包括的に理解できます。CloudMonitor はまた、アラート通知を送信して、できるだけ早く例外を処理し、アプリケーションが期待どおりに実行されるように支援します。このトピックでは、CloudMonitor を使用して Hologres インスタンスのメトリックを監視し、アラートルールを設定する方法について説明します。
前提条件
Hologres インスタンスを購入済みであること。
使用上の注意
CloudMonitor は、さまざまなインスタンスタイプに専用のメトリックを提供し、[Hologres フォロワーインスタンス]、[Hologres アクセラレーションインスタンス]、[Hologres 標準インスタンス]、[Hologres ウェアハウスインスタンス] などのインスタンスタイプごとに異なるタブにメトリックを表示します。これにより、ビジネスの監視とトラブルシューティングが容易になります。[Hologres] タブではなく、特定のインスタンスタイプのタブでメトリックを表示することをお勧めします。
メトリック
CloudMonitor がサポートする Hologres インスタンスのメトリックの詳細については、「Hologres コンソールでのメトリックの監視」をご参照ください。
メトリックの表示
CloudMonitor コンソールにログインしてメトリックを表示できます。
CloudMonitor コンソールにログインします。
左側のナビゲーションウィンドウで、[クラウドサービス監視] > [クラウドサービス監視] を選択します。
[ビッグデータ] セクションで、目的のインスタンスタイプをクリックします。インスタンスタイプは、Hologres フォロワーインスタンス、Hologres アクセラレーションインスタンス、Hologres 標準インスタンス、または Hologres ウェアハウスインスタンスです。
リージョンの横にある
アイコンをクリックし、インスタンスが存在するリージョンを選択します。インスタンスの ID をクリックするか、インスタンスの [アクション] 列にある [監視チャート] をクリックします。
説明期間を指定してインスタンスのメトリックを表示できます。過去 30 日間のメトリックのみをクエリできます。
アラートルールの設定
イニシアチブアラートの有効化
CloudMonitor コンソールで Hologres の イニシアチブアラート 機能を有効にできます。イニシアチブアラート機能を使用すると、Alibaba Cloud アカウントのすべての Hologres インスタンスに対して、CPU 使用率、ディスク使用量、メモリ使用量、接続数などのさまざまなメトリックに基づいてデフォルトのアラートルールを設定できます。これにより、問題をできるだけ早く特定できます。次のデフォルトのアラートルールが提供されています:
平均接続使用率が 3 サイクル連続で 95% 以上の場合、情報レベルのアラート通知が [アラート連絡グループ] の連絡先に送信されます。
平均ストレージ使用率が 3 サイクル連続で 90% を超える場合、警告レベルのアラート通知が [アラート連絡グループ] の連絡先に送信されます。
平均メモリ使用量が 3 サイクル連続で 90% 以上の場合、警告レベルのアラート通知が [アラート連絡グループ] の連絡先に送信されます。
平均 CPU 使用率が 3 サイクル連続で 99% 以上の場合、情報レベルのアラート通知が [アラート連絡グループ] の連絡先に送信されます。
デフォルトでは、各サイクルの期間は 5 分です。カスタムのサイクル期間を指定することもできます。
アラートルールの作成
イニシアチブアラート機能に加えて、次の手順を実行して、ビジネス要件に基づいてメトリックのカスタムアラートルールを設定できます:
CloudMonitor コンソールにログインします。
左側のナビゲーションメニューで、を選択します。
[アラートルール] ページで、[アラートルールの作成] をクリックします。[アラートルールの作成] ペインで、ビジネス要件に基づいてパラメーターを設定します。詳細については、「アラートルールを作成する」をご参照ください。
アラートルール設定のベストプラクティス
このセクションでは、さまざまなメトリックに推奨されるアラートルールについて説明します。
インスタンス CPU 使用率 (%)
このメトリックは、Hologres インスタンスにリソースのボトルネックが存在するか、またはリソースが完全に利用されているかを示します。推奨される構成:
アラートルール:
重大: このメトリックの値が 60 サイクル連続で 99% 以上の場合、重大レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートに基づいて、インスタンスのリソース使用量を効果的に監視し、スケールアウト操作を実行するかどうかを判断できます。
警告: このメトリックの値が 10 サイクル連続で 99% 以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートがレポートされた場合は、高い CPU 使用率がビジネスの変更によって引き起こされたかどうかを確認できます。
このメトリックの値が 100% に達したときにトリガーされるアラートは設定しないことをお勧めします。短期間での 100% の CPU 使用率は、システムの過負荷や例外を示すものではありません。このシナリオは、高いリソース使用率を示します。
アラートをトリガーするために、このメトリックのしきい値を過度に小さい値に設定しないことをお勧めします。タスクが実行されていない場合でも、一部のコンポーネントが実行中でリソースを消費している可能性があります。
ワーカー CPU 使用率 (%)
このメトリックは、Hologres インスタンスの各ワーカーノードにリソースのボトルネックが存在するか、またはリソースが完全に利用されているかを示します。推奨される構成:
アラートルール:
重大: このメトリックの値が 60 サイクル連続で 99% 以上の場合、重大レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートに基づいて、各ワーカーノードのリソース使用量を効果的に監視し、スケールアウト操作を実行するかどうかを判断できます。
警告: このメトリックの値が 10 サイクル連続で 99% 以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートがレポートされた場合は、高い CPU 使用率がビジネスの変更によって引き起こされたかどうかを確認できます。
このメトリックの値が 100% に達したときにトリガーされるアラートは設定しないことをお勧めします。短期間での 100% の CPU 使用率は、システムの過負荷や例外を示すものではありません。このシナリオは、高いリソース使用率を示します。
アラートをトリガーするために、このメトリックのしきい値を過度に小さい値に設定しないことをお勧めします。タスクが実行されていない場合でも、一部のコンポーネントが実行中でリソースを消費している可能性があります。
インスタンスメモリ使用量 (%)
このメトリックは、インスタンスのメモリ使用量を示します。推奨される構成:
アラートルール:
重大: このメトリックの値が 60 サイクル連続で 99% 以上の場合、重大レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートに基づいて、インスタンスのメモリ使用量を効果的に監視し、スケールアウト操作を実行するかどうかを判断できます。
このメトリックの値が 10 サイクル連続で 99% 以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートがレポートされた場合は、高いメモリ使用量がビジネスの変更によって引き起こされたかどうかを確認できます。
アラートをトリガーするために、このメトリックのしきい値を過度に小さい値に設定しないことをお勧めします。クエリに加えて、メタデータとキャッシュデータはメモリリソースを消費します。インスタンスでタスクが実行されていなくても、メモリリソースは消費されます。
ワーカーメモリ使用量 (%)
このメトリックは、ワーカーノードのメモリ使用量を示します。推奨される構成:
アラートルール:
重大: このメトリックの値が 60 サイクル連続で 99% 以上の場合、重大レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートに基づいて、インスタンス上の各ワーカーノードのメモリ使用量を効果的に監視し、スケールアウト操作を実行するかどうかを判断できます。
警告: このメトリックの値が 10 サイクル連続で 99% 以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートがレポートされた場合は、高いメモリ使用量がビジネスの変更によって引き起こされたかどうかを確認できます。
アラートをトリガーするために、このメトリックのしきい値を過度に小さい値に設定しないことをお勧めします。クエリに加えて、メタデータとキャッシュデータはメモリリソースを占有します。インスタンスでタスクが実行されていなくても、メモリリソースは消費されます。
最大接続使用率 (%)
このメトリックは、インスタンス上の FE ノード間の最大接続使用率を示します。推奨される構成:
警告: このメトリックの値が 5 サイクル連続で 95% 以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートに基づいて、インスタンスの接続使用量を効果的に監視し、アイドル状態の接続をできるだけ早く閉じることができます。
Binlog WAL 送信者使用率 (%)
このメトリックは、FE ノード間の最大 walsender 使用率を示します。推奨される構成:
警告: このメトリックの値が 5 サイクル連続で 95% 以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。このアラートに基づいて、インスタンスの walsender 使用量を効果的に監視できます。
最長アクティブクエリ時間 (ミリ秒)
このメトリックに基づいて、指定された時点でインスタンスに長時間実行されているクエリが存在するかどうかを確認できます。推奨される構成:
警告: このメトリックの値が 10 サイクル連続で 3,600,000 ミリ秒以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。
サーバーレスコンピューティング最長アクティブクエリ時間 (ミリ秒)
このメトリックを使用して、サーバーレスコンピューティングリソースを使用するタスクの実行ステータスを効果的に監視できます。タスクの実行時間が長すぎる場合は、できるだけ早くタスクをキャンセルできます。推奨される構成:
警告: このメトリックの値が 10 サイクル連続で 3,600,000 ミリ秒以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。
失敗したクエリ QPS (countS)
このメトリックは、インスタンス上の 1 秒あたりの失敗したクエリの総数を示します。このメトリックに基づいてアラートルールを設定できます。推奨される構成:
警告: このメトリックの値が 10 サイクル連続で 10 以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。インスタンスで多数のクエリが失敗した場合は、スロークエリログで失敗の詳細を確認し、ガバナンスを実行することをお勧めします。
FE リプレイ実行時間 (ミリ秒)
このメトリックは、各 FE ノードのリプレイ期間を示します。このメトリックの値が大きすぎる場合、クエリが FE ノードでスタックしている可能性があります。この場合は、できるだけ早くトラブルシューティングを実行してください。推奨される構成:
アラートルール:
警告: このメトリックの値が 10 サイクル連続で 300,000 ミリ秒以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。この場合、HoloWeb コンソールで完了までに長時間を要するクエリを確認してキャンセルします。
アラートをトリガーするために、このメトリックのしきい値を過度に小さい値に設定しないことをお勧めします。インスタンスのメタデータが変更されると、FE リプレイが発生します。ほとんどの場合、このメトリックの値が秒単位であれば、その値は正常と見なされます。
インスタンス同期ラグ (ミリ秒)
このメトリックはセカンダリインスタンスに対してのみ表示され、プライマリインスタンスからセカンダリインスタンスへのデータ同期の待機時間を示します。推奨される構成:
警告: このメトリックの値が 10 サイクル連続で 600,000 ミリ秒以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。
DB 別統計情報欠落テーブル数 (countS)
このメトリックは、自動分析機能のパフォーマンスを示します。特定のテーブルの統計情報が長期間収集されない場合は、それらのテーブルに対して手動で ANALYZE 文を実行します。詳細については、「ANALYZE と自動分析」をご参照ください。推奨される構成:
アラートルール:
警告: このメトリックの値が 60 サイクル連続で 10 以上の場合、警告レベルのアラートがレポートされます。各サイクルの期間は 1 分です。
アラートをトリガーするために、このメトリックのしきい値を過度に小さい値に設定しないことをお勧めします。これは、インスタンスに多数のテーブルが含まれている場合、自動分析機能の実行速度が低下するためです。
メトリック関連の問題のトラブルシューティング
メトリックが予期せず変動したり、アラートがレポートされたりした場合は、「メトリックに関するよくある質問」の指示に従って問題をトラブルシューティングできます。
API 操作を呼び出してメトリックを表示する
CloudMonitor コンソールに加えて、カスタムダッシュボードから、または API 操作を呼び出すことによってメトリックを表示できます。
API 操作を呼び出して Hologres メトリックを表示する方法の詳細については、「クラウドプロダクト」をご参照ください。
カスタムダッシュボードから Hologres メトリックを表示する方法の詳細については、「カスタムダッシュボードの管理」をご参照ください。
Application Real-Time Monitoring Service (ARMS) を使用して Hologres メトリックを表示する方法の詳細については、「サービスまたはコンポーネントの統合」をご参照ください。
RAM ユーザーに CloudMonitor の必要な権限を付与する
デフォルトでは、RAM ユーザーは CloudMonitor に対する権限を持っていません。ビジネス要件に基づいて、RAM ユーザーに CloudMonitor の必要な権限を付与する必要があります。
Alibaba Cloud アカウントを使用して Resource Access Management (RAM) コンソールにログインし、「RAM ユーザーに権限を付与する」の指示に従って権限を付与できます。次の表に権限を示します。
ビジネス要件に基づいて必要な権限を付与できます。
ポリシー | 説明 |
AliyunCloudMonitorFullAccess | CloudMonitor を管理する権限。 |
AliyunCloudMonitorReadOnlyAccess | CloudMonitor に対する読み取り専用権限。 |
AliyunCloudMonitorMetricDataReadOnlyAccess | CloudMonitor の時系列メトリックにアクセスする権限。 |