ACK Backup Center の監視と Prometheus アラートルールの設定 - ACK

バックアップセンターを Managed Service for Prometheus と統合して、バックアップボールトとタスクのステータスをリアルタイムでモニタリングできます。このトピックでは、バックアップセンターをモニタリングし、アラートを設定する方法について説明します。

前提条件

バックアップサービスコンポーネント migrate-controller がインストールされており、コンポーネントのバージョンが v1.7.10 以降であること。詳細については、「migrate-controller のインストールと権限の付与」および「コンポーネントの管理」をご参照ください。
Kubernetes バージョンが 1.20 より前のクラスターには、最新の migrate-controller バージョンをインストールできません。バックアップセンターのモニタリング機能を使用するには、まずクラスターの Kubernetes バージョンを更新してください。詳細については、「クラスターの手動更新」をご参照ください。
クラスターで Managed Service for Prometheus が有効になっていること。

課金

migrate-controller コンポーネントは、メトリックを Managed Service for Prometheus に送信します。これらのメトリックはカスタムメトリックと見なされます。カスタムメトリックを使用すると、追加料金が発生します。

バックアップセンターのモニタリング機能を有効にする前に、「課金の概要」を読んでカスタムメトリックの課金ルールを理解することをお勧めします。料金は、クラスターのサイズとアプリケーションの数によって異なる場合があります。 Managed Service for Prometheus で「リソース使用量の表示」をすることもできます。

バックアップセンターと Managed Service for Prometheus の連携

Managed Service for Prometheus を使用して、クラスターに関連付けられているバックアップボールトのステータスと、クラスター内のバックアップタスクのステータスをモニタリングできます。

ARMS コンソールにログインします。
左側のナビゲーションウィンドウで、[Integration Center] をクリックします。 [Infrastructure] タブで [Ack Backup Center Service Monitoring] を検索し、[Ack Backup Center Service Monitoring] をクリックして統合ページに移動します。
[Start Integration] タブで、バックアップセンターがインストールされている Container Service for Kubernetes (ACK) クラスターを選択し、[OK] をクリックします。
統合が完了したら、ACK コンソールまたは ARMS コンソールにログインしてダッシュボードを表示できます。

バックアップセンターのダッシュボードの表示

ダッシュボードエントランス

ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。
クラスター ページで、目的のクラスターを見つけてその名前をクリックします。左側のペインで、[オペレーション] > [Prometheus モニタリング] を選択します。
[Prometheus モニタリング] ページで、[その他] タブをクリックし、[ACK BackupCenter] タブでバックアップセンターのダッシュボードを表示します。

説明

ARMS コンソールでバックアップセンターのダッシュボードを表示する方法の詳細については、「ダッシュボードの表示」をご参照ください。

ダッシュボードの紹介

次のバックアップセンターダッシュボードがサポートされています: Backup Locations (バックアップボールト情報)、Backup Operation Status (バックアップタスク情報)、および Addon Status (動作中のコンポーネント情報)。

Backup Locations

このダッシュボードには、現在のクラスターに関連付けられているバックアップボールトの詳細情報 (Backuplocation Detail) が表示されます。

バックアップボールトはバックアップファイルを保存し、バックアップセンターと Object Storage Service (OSS) バケットとの関連付けを表示します。バックアップセンターは、バックアップボールトが Available 状態になった後にのみ、バックアップ、スナップショット、および復元タスクを実行できます。次の表に、Backuplocation Detail メトリックを示します。

メトリック	説明
Backuplocation	バックアップボールトの名前。
OSS Bucket	バックアップボールトに関連付けられている OSS バケットの名前。
Region	OSS バケットのリージョン (cn-hangzhou など)。
NetworkPolicy	バックアップボールトと OSS バケット間のネットワーク接続のタイプ。有効な値: internal: 内部ネットワーク。 public: インターネット。
Phase	バックアップボールトのステータス。有効な値: InProgress: バックアップボールトは初期化を実行し、OSS バケットへの接続性をチェックしています。この状態は短時間続きます。 Available: OSS バケットへの接続性は正常です。 OSS バケットはバックアップタスクに使用できます。 Unavailable: バックアップボールトは OSS バケットから切断されています。 OSS バケットはバックアップタスクに使用できません。

Backup Operation Status

このダッシュボードには、すべてのバックアップタスクの概要 (Backup Overview) と失敗したバックアップタスクの詳細 (Failed Backup Detail) を含む、バックアップタスクのステータスが表示されます。

Backup Overview: ヒストグラムを使用して、現在のクラスターの各バックアップボールトで作成されたバックアップタスクの数を表示します。バックアップタスクには、即時バックアップタスクとスケジュールされたバックアップタスクが含まれます。 X 軸にはバックアップボールトの名前が表示され、Y 軸には各バックアップボールトのバックアップタスクの数が表示されます。次の表に、Backup Overview メトリックを示します。

メトリック	説明
Backup (Failed)	赤いバーは、失敗したバックアップタスクの数を表示します。
Backup (Completed)	緑のバーは、成功したバックアップタスクの数を表示します。

Failed Backup Detail: 現在のクラスターで失敗したバックアップタスクの基本情報を表示します。次の表に、Failed Backup Detail メトリックを示します。

メトリック	説明
Backup	バックアップタスクの名前。
Backuplocation	バックアップタスクが属するバックアップボールトの名前。
BackupType	バックアップタスクのバックアップモード。有効な値: AppBackup: アプリケーションバックアップ (YAML バックアップ) のみを作成します。 AppAndPvBackup: アプリケーションとデータのバックアップを作成します。 YAML ファイルと永続ボリューム (PV) に保存されているデータがバックアップされます。
DataType	データバックアップのタイプ。有効な値: snapshot: PV はディスクボリュームです。 hbr: PV は、HostPath ローカルボリューム、NAS ボリューム、OSS ボリュームなどのファイルシステムボリュームです。 all: PV にはディスクボリュームとファイルシステムボリュームが含まれます。 none: データバックアップは有効です。ただし、指定された名前空間では PV は使用されません。
FromSchedule	バックアップジョブのソース。 Empty: 即時バックアップタスク。 Not empty: スケジュールされたバックアップタスク。バックアッププランの名前が表示されます。

Addon Status

このダッシュボードには、csdr-controller および csdr-velero 動作コンポーネントのステータスが表示されます。バックアップセンターがバックアップ、スナップショット、および復元タスクを実行できるように、動作コンポーネントが正常に実行されていることを確認してください。

バックアップセンターコンポーネント migrate-controller がインストールされると、クラスターで事前チェックが実行されます。事前チェックが完了すると、migrate-controller は csdr-controller および csdr-velero 動作コンポーネントをバックアップセンターの csdr 名前空間にデプロイします。

csdr-controller および csdr-velero 動作コンポーネントは Deployment Pod で実行されます。次の表に、Addon Status メトリックを示します。

メトリック	説明
Age	動作コンポーネントのアップタイム。
Status	動作コンポーネントのステータス。有効な値: Health: 動作コンポーネントの Pod は正常に実行されます。 UnHealth: 動作コンポーネントの Pod を起動できないか、プローブに失敗しました。
Pods	動作コンポーネント Pod の詳細情報。
Memory Request	動作コンポーネント用に予約されているメモリリソースの量。
CPU Request	動作コンポーネント用に予約されている CPU リソースの量。
Memory Limit	動作コンポーネントのメモリ上限。
CPU Limit	動作コンポーネントの CPU 上限。

バックアップタスクの失敗に対するアラートの設定

バックアップタスクの失敗に関するアラートはイベントアラートです。各バックアップタスクに対して、csdr.alibabacloud.com リソースグループに applicationbackups カスタムリソース定義 (CRD) が作成されます。バックアップタスクが失敗すると、CRD は WARN イベントを生成します。

失敗したバックアップタスクに対して生成された WARN イベントのクエリ

次のコマンドを実行して、失敗したバックアップタスクに対して生成された WARN イベントをクエリします:

kubectl -n csdr get events --field-selector='type!=Normal'

予想される出力:

VaultError: backup vault is unavailable: oss: service returned error: StatusCode=403, ErrorCode=AccessDenied, ErrorMessage="The bucket you access does not belong to you.", RequestId=668516BC35F915******

VaultError は失敗の原因を表示します。

バックアップタスクの失敗に対して WARN イベントを生成するためのアラートルールの設定

ACK クラスターのアラート機能を使用してアラートルールを設定します。詳細については、「アラート管理」をご参照ください。

異常なモニタリングデータの分析

動作コンポーネントが存在しない、または異常な状態 (UnHealth) にある問題のトラブルシューティング

バックアップセンターのインストール後、動作コンポーネントが見つからないか、繰り返しデプロイされます。
次のコマンドを実行して、migrate-controller コンポーネントのステータスをクエリします:
```
kubectl -n kube-system get pod -l app=migrate-controller
```
コンポーネントが CrashLoopBackOff 状態にあるか、再起動を繰り返す場合、クラスターは事前チェックに失敗します。通常、この問題は、クラスターが FlexVolume を使用しているか、登録済みクラスターに必要な権限がないために発生します。詳細については、「バックアップセンターに関する FAQ」および「登録済みクラスター」をご参照ください。
動作コンポーネントの UnHealth 状態が長時間続きます。 Pod ダッシュボードにはデータや異常な状態が表示されません。
動作コンポーネントの Pod を起動できません。詳細については、「Pod のトラブルシューティング」をご参照ください。
動作コンポーネントは Health 状態ですが、Pod ダッシュボードに表示される再起動の数は 0 ではありません。
csdr-velero コンポーネントのメモリ使用量は、バックアッププロセス中に急増します。このシナリオでは、メモリ不足 (OOM) エラーが簡単に発生し、コンポーネントが例外的に終了する原因となります。メモリ使用量を増やすことで、この問題を解決できます。
説明
バックアッププロセス中に動作コンポーネントの Pod が例外的に終了した場合、バックアップタスクは失敗するか、長時間 InProgress 状態のままになります。

バックアップボールトが異常な状態 (Unavailable) にある問題のトラブルシューティング

次のコマンドを実行して、エラーメッセージを表示します。

異常な状態のバックアップボールトの名前に <unavailable-backuplocation-name> を置き換えます。

kubectl -n csdr describe backuplocation <unavailabe-backuplocation-name>

バックアップボールトの例外のトラブルシューティングの詳細については、「バックアップセンターに関する FAQ」をご参照ください。

バックアップタスクの失敗のトラブルシューティング

CLI の使用

次のコマンドを実行して、エラーメッセージを表示します。

失敗したバックアップタスクの名前に <failed-applicationbackup-name> を置き換えます。

kubectl -ncsdr describe applicationbackup <failed-applicationbackup-name>

バックアップタスクの失敗のトラブルシューティングの詳細については、「バックアップセンターに関する FAQ」をご参照ください。

コンソールの使用

ACK コンソールにログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。
クラスター ページで、目的のクラスターを見つけてその名前をクリックします。左側のペインで、[オペレーション] > [アプリケーションバックアップ] を選択します。
[アプリケーションバックアップ] ページで、[バックアップレコード] タブをクリックし、失敗したバックアップタスクを見つけて、[ステータス] 列の [失敗] をクリックしてエラーメッセージを表示します。