静的しきい値またはカスタム PromQL を使用してアラートルールを設定 - SelectDB

ApsaraDB for SelectDB は、Alibaba Cloud Application Real-Time Monitoring Service (ARMS) のアラート機能を統合しています。この統合により、ApsaraDB for SelectDB コンソールでアラートルールを設定できます。アラートルールがトリガーされたときにアラートグループ内のすべての連絡先に通知するようにメトリックを設定できます。また、メトリックのアラートグループを管理して、アラート発生時に適切な連絡先に迅速に通知されるようにすることもできます。ApsaraDB for SelectDB インスタンスの重要なモニタリングメトリックにアラートルールを設定することで、メトリックデータが異常になったときにすぐに通知を受け取ることができ、エラーの特定と解決を迅速に行うのに役立ちます。このトピックでは、ApsaraDB for SelectDB コンソールでアラートルールを設定する方法について説明します。

説明

CloudMonitor コンソールで ApsaraDB for SelectDB インスタンスのアラートルールを設定することもできます。詳細については、「クラウドサービスモニタリング」をご参照ください。

前提条件

ApsaraDB for SelectDB サービスリンクロール AliyunServiceRoleForSelectDB が作成されていること。デフォルトでは、このロールは ARMS サービスへのアクセス権限を持っています。詳細については、「サービスリンクロール」をご参照ください。
ApsaraDB for SelectDB インスタンスからのモニタリング情報を独自の ARMS にレポートして、モニタリングとアラートを一元管理したい場合は、Alibaba Cloud ARMS サービスを有効化する必要があります。詳細については、「ARMS の有効化」をご参照ください。

手順

ApsaraDB for SelectDB コンソールにログインします。
ページ左上のリージョン選択欄で、インスタンスが所在するリージョンを選択します。
[インスタンス一覧] ページで、対象の [インスタンス ID] をクリックして [インスタンス詳細] ページを開きます。
左側のナビゲーションウィンドウで、[モニタリングとアラート] をクリックします。
[モニタリングとアラート] ページで [アラート管理] タブをクリックし、[SelectDB モニタリングアラートの作成] をクリックします。
説明
[アラート管理] をクリックした後、[SelectDB モニTAリングアラート一覧] ページがロードされるまで 3〜5 秒かかる場合があります。

[SelectDB モニタリングアラートの作成] ページで、パラメーターを設定します。

静的しきい値またはカスタム Prometheus Query Language (PromQL) 式を使用して SelectDB アラートルールを作成できます。

静的しきい値: 提供されたオプションを使用して、プリセットメトリックのアラートルールを作成します。
カスタム PromQL: カスタム PromQL 式を記述して、プリセットされていないメトリックのアラートルールを作成します。

静的しきい値

パラメータ	説明	例
アラート名	アラートの名前。	CPU 使用率アラート
チェックタイプ	[静的しきい値] を選択します。	静的しきい値
インスタンス	アラートルールを作成するインスタンスを選択します。デフォルト値は traverse で、アラートルールがすべてのインスタンスに適用されることを意味します。	selectdb-cn-7213n****
クラスタ	アラートルールを作成するクラスターを選択します。デフォルト値は traverse で、アラートルールがすべてのインスタンスに適用されることを意味します。	selectdb-cn-7213n****-be
アラートグループ	アラートグループを選択します。サポートされるアラートグループは Prometheus インスタンスタイプによって異なります。このパラメーターのオプションは、選択した Prometheus インスタンスタイプに基づいて変更されます。	SelectDB モニタリングアラート
アラートメトリック	アラートを設定するメトリックを選択します。各アラートグループは異なるメトリックに対応しています。	CPU 使用率
アラート条件	アラートメトリックのプリセット内容に基づいて、アラートイベントを生成する条件を設定します。	CPU 使用率が 80% を超えたときにアラートを送信します。
[フィルター条件]	フィルターなし	なし
[データプレビュー]	[データプレビュー] セクションには、アラート条件に対応する PromQL 文が表示されます。このセクションには、時系列曲線上に指定されたメトリックの値も表示されます。デフォルトでは、1 つのリソースのリアルタイム値のみが表示されます。このエリアのフィルターボックスで対象のリソースと時間範囲を選択して、異なるリソースと時間範囲の値を表示できます。説明アラートのしきい値はパネルに赤い破線で表示されます。アラートのしきい値を満たす時系列曲線の部分は濃い赤色で表示され、満たさない部分は青色で表示されます。時系列曲線上にマウスポインターを合わせると、その時点のリソース詳細が表示されます。時系列曲線上で期間を選択すると、その特定の時間範囲の曲線が表示されます。	なし
期間	アラート条件が満たされるとすぐにアラートイベントを生成: いずれかのデータポイントがしきい値を満たす場合にアラートイベントが生成されます。アラート条件が N 分間持続した後にのみアラートイベントを生成: しきい値を満たす時間が N 分以上の場合にのみアラートイベントが生成されます。	1
アラートレベル	アラートレベルをカスタマイズします。デフォルトのレベルは [デフォルト] です。重要度は、昇順で、デフォルト、P4、P3、P2、P1 です。	P2
アラート内容	ユーザーが受信するアラート情報。Go テンプレート構文を使用して、アラートコンテンツ内のアラートパラメーター変数をカスタマイズできます。	ノード: {{$labels.pod_name}} CPU 使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%、現在の値 {{ printf "%.2f" $value }}%
アラート通知	[シンプルモード]: [通知オブジェクト]、[通知期間]、[繰り返しポリシー] を迅速に設定します。 [標準モード]: 通知ポリシーを選択します。利用可能な通知ポリシーがない場合は、[通知] [ポリシーの作成] をクリックして新しいポリシーを作成します。詳細については、「通知ポリシー」をご参照ください。重要通知ポリシーを迅速に指定しても、現在のアラートルールによって生成されたアラートイベントが選択された通知ポリシーに一致し、対応するアラートがトリガーされることしか保証されません。ただし、現在のアラートルールによって生成されたイベントは、あいまい一致で設定された他の通知ポリシーにも一致する可能性があり、これもアラートをトリガーします。アラートルールによって生成されたアラートイベントと通知ポリシーの関係は多対多です。	なし
アラート通知		なし
[詳細設定]	[アラートチェック期間]: アラートルールがチェックされ、データがアラート条件を満たしているかどうかを判断する間隔。デフォルトおよび最小値は 1 分です。 [データ完了後にチェック]: データの完全性をチェックします。デフォルト値は「はい」です。この設定は変更しないことをお勧めします。 [タグ (ラベル)]: アラートタグを設定します。設定されたタグは、通知ポリシーの一致ルールのオプションとして使用できます。 [アノテーション (annotations)]: アラートのアノテーションを設定します。	アラートチェック期間: 1 分データ完了後にチェック: はいタグ (ラベル): なしアノテーション (annotations): なし

カスタム PromQL

パラメータ	説明	例
アラート名	アラートの名前。	Pod の CPU 使用率が 80% を超えています
チェックタイプ	[カスタム PromQL] に設定します。	カスタム PromQL
インスタンス	アラートルールを作成するインスタンスを選択します。	selectdb-cn-7213n****
クラスタ	アラートルールを作成するクラスターを選択します。	selectdb-cn-7213n****-be
参照アラートグループ	アラートグループを選択します。サポートされるアラートグループは Prometheus インスタンスタイプによって異なります。このパラメーターのオプションは、選択した Prometheus インスタンスタイプに基づいて変更されます。	SelectDB モニタリングアラート
参照アラートメトリック	(オプション) 参照メトリックには、一般的なメトリックのカスタム PromQL 設定メソッドが含まれています。既存の類似メトリックを選択してフィールドに入力し、そのメトリックに基づいて設定を変更してアラート設定を完了できます。参照メトリックパラメーターは、選択した Prometheus インスタンスタイプに基づいて、サポートされているアラートメトリックを自動的にフィルターします。説明 [参照アラートメトリック] によって提供される [カスタム PromQL 文] テンプレートは、完全な PromQL 式ではありません。必要に応じて変更し、完成させる必要があります。	99 パーセンタイルクエリ時間
カスタム PromQL 文	PromQL 文を使用してアラート式を設定します。	avg(doris_fe_query_latency_ms{quantile="0.99",pod=~,cluster_id=~}) by (cluster_id) > 300
データプレビュー	[データプレビュー] エリアには、アラート条件に対応する PromQL 文が表示され、設定されたメトリックの値が時系列曲線で表示されます。デフォルトでは、1 つのリソースのリアルタイム値のみが表示されます。このエリアのフィルターボックスで対象のリソースと時間範囲を選択して、異なるリソースと時間範囲の値を表示できます。説明アラートのしきい値はパネルに赤い破線で表示されます。アラートのしきい値を満たす時系列曲線の部分は濃い赤色で表示され、満たさない部分は青色で表示されます。時系列曲線上にマウスポインターを合わせると、その時点のリソース詳細が表示されます。時系列曲線上で期間を選択すると、その特定の時間範囲の曲線が表示されます。	なし
期間	[アラート条件が満たされるとすぐにアラートイベントを生成]: いずれかのデータポイントがしきい値を満たす場合にアラートイベントが生成されます。 [アラート条件が N 分間持続した後にのみアラートイベントを生成]: しき値を満たす時間が N 分以上の場合にのみアラートイベントが生成されます。	1
アラートレベル	アラートレベルをカスタマイズします。デフォルトのレベルは [デフォルト] です。重要度は、昇順で、デフォルト、P4、P3、P2、P1 です。	デフォルト
アラート内容	ユーザーが受信するアラート情報。Go テンプレート構文を使用して、アラートコンテンツ内のアラートパラメーター変数をカスタマイズできます。	名前空間: {{$labels.namespace}}/Pod: {{$labels.pod_name}}/ディスクデバイス: {{$labels.device}} 使用率が 90% を超えました、現在の値 {{ printf "%.2f" $value }}%
アラート通知	[シンプルモード]: [通知オブジェクト]、[通知期間]、[繰り返しポリシー] を迅速に設定します。 [標準モード]: 通知ポリシーを選択します。利用可能な通知ポリシーがない場合は、[通知] [ポリシーの作成] をクリックして新しいポリシーを作成します。詳細については、「通知ポリシー」をご参照ください。重要通知ポリシーを迅速に指定しても、現在のアラートルールによって生成されたアラートイベントが選択された通知ポリシーに一致し、対応するアラートがトリガーされることしか保証されません。ただし、現在のアラートルールによって生成されたイベントは、あいまい一致で設定された他の通知ポリシーにも一致する可能性があり、これもアラートをトリガーします。アラートルールによって生成されたアラートイベントと通知ポリシーの関係は多対多です。	なし
詳細設定	[アラートチェック期間]: アラートルールがチェックされ、データがアラート条件を満たしているかどうかを判断する間隔。デフォルトおよび最小値は 1 分です。 [データ完了後にチェック]: データの完全性をチェックします。デフォルト値は「はい」です。この設定は変更しないことをお勧めします。 [タグ (ラベル)]: アラートタグを設定します。設定されたタグは、通知ポリシーの一致ルールのオプションとして使用できます。 [アノテーション (annotations)]: アラートのアノテーションを設定します。	アラートチェック期間: 1 分データ完了後にチェック: はいタグ (ラベル): なしアノテーション (annotations): なし

パラメーターを設定したら、[保存] をクリックします。アラートルールは自動的に有効になります。

アラート設定の提案

要件に基づいてアラートを設定できます。次の表に、一般的なメトリックの設定に関する提案を示します。

メトリック名	推奨しきい値	推奨期間 (分)	アラート設定の提案
平均クエリ時間	>5000	5	平均クエリ時間 (ミリ秒)。必要に応じてしきい値を調整してください。このメトリックを設定することをお勧めします。
99 パーセンタイルクエリ時間	>60000	5	ロングテールクエリ時間 (ミリ秒)。必要に応じてしきい値を調整してください。このメトリックを設定することをお勧めします。
クエリ成功率	<90	5	SQL クエリの成功率。このメトリックを設定することをお勧めします。
CPU 使用率	>80	15	BE クラスターの CPU 使用率。これは一般的なビジネスモニタリングメトリックです。このメトリックを設定することをお勧めします。
メモリ使用量	>80	15	BE クラスターのメモリ使用量。これは一般的なビジネスモニタリングメトリックです。このメトリックを設定することをお勧めします。
FE CPU 使用率	>60	15	FE の CPU 使用率。このメトリックを設定することをお勧めします。リソースが不足している場合は、チケットを送信して無料のスケールアウトをリクエストしてください。
FE JVM メモリ使用量	>80	15	FE JVM のメモリ使用量。このメトリックを設定することをお勧めします。リソースが不足している場合は、チケットを送信して無料のスケールアウトをリクエストしてください。
失敗したノード数	>0	1	計算クラスターの基盤となるノードが再起動された回数。必要に応じて設定してください。
データマージベーススコア	<1500	15	値が高いほど、計算ノードのデータマージ圧力が大きいことを示します。このメトリックを設定することをお勧めします。
データマージ累積スコア	<1500	15	値が高いほど、計算ノードのデータマージ圧力が大きいことを示します。このメトリックを設定することをお勧めします。
キャッシュヒット率	<90	15	キャッシュヒット率はクエリ時間に影響します。このメトリックを設定することをお勧めします。このメトリックが低下した場合は、スケールアウトが必要かどうかを評価してください。スケールアウトの方法については、「クラスターのスケーリング」をご参照ください。
ユーザー接続	>150	15	データベースユーザーとデータベース間の合計接続数。各ユーザーの最大接続数はデフォルトで 200 です。これはビジネス関連のメトリックです。このメトリックを設定することをお勧めします。
秒間クエリ数 (QPS)	なし	なし	これはビジネス関連のメトリックです。必要に応じて設定してください。
ディスク書き込み IOPS	なし	なし	これは基盤となるメトリックであり、通常はビジネス上の注意を必要としません。必要に応じて設定してください。
ディスク読み取り IOPS	なし	なし	これは基盤となるメトリックであり、通常はビジネス上の注意を必要としません。必要に応じて設定してください。
Object Storage Service 容量	なし	なし	ストレージ使用量が気になる場合は、必要に応じて設定してください。
データインポート速度	なし	なし	データインポートの速度が気になる場合は、必要に応じて設定してください。
キャッシュ書き込みスループット	なし	なし	これは基盤となるメトリックであり、通常はビジネス上の注意を必要としません。必要に応じて設定してください。
キャッシュ読み取りスループット	なし	なし	これは基盤となるメトリックであり、通常はビジネス上の注意を必要としません。必要に応じて設定してください。
ネットワーク受信スループット	なし	なし	これは基盤となるメトリックであり、通常はビジネス上の注意を必要としません。必要に応じて設定してください。
ネットワーク送信スループット	なし	なし	これは基盤となるメトリックであり、通常はビジネス上の注意を必要としません。必要に応じて設定してください。
リモートストレージ読み取りスループット	なし	なし	これは基盤となるメトリックであり、通常はビジネス上の注意を必要としません。必要に応じて設定してください。