バックアップセンターを Managed Service for Prometheus と統合して、バックアップボールトとタスクのステータスをリアルタイムでモニタリングできます。このトピックでは、バックアップセンターをモニタリングし、アラートを設定する方法について説明します。
前提条件
バックアップサービスコンポーネント migrate-controller がインストールされており、コンポーネントのバージョンが v1.7.10 以降であること。 詳細については、「migrate-controller のインストールと権限の付与」および「コンポーネントの管理」をご参照ください。
Kubernetes バージョンが 1.20 より前のクラスターには、最新の migrate-controller バージョンをインストールできません。 バックアップセンターのモニタリング機能を使用するには、まずクラスターの Kubernetes バージョンを更新してください。 詳細については、「クラスターの手動更新」をご参照ください。
クラスターで Managed Service for Prometheus が有効になっていること。
課金
migrate-controller コンポーネントは、メトリックを Managed Service for Prometheus に送信します。 これらのメトリックは カスタムメトリック と見なされます。 カスタムメトリックを使用すると、追加料金が発生します。
バックアップセンターのモニタリング機能を有効にする前に、「課金の概要」を読んでカスタムメトリックの課金ルールを理解することをお勧めします。 料金は、クラスターのサイズとアプリケーションの数によって異なる場合があります。 Managed Service for Prometheus で「リソース使用量の表示」をすることもできます。
バックアップセンターと Managed Service for Prometheus の連携
Managed Service for Prometheus を使用して、クラスターに関連付けられているバックアップボールトのステータスと、クラスター内のバックアップタスクのステータスをモニタリングできます。
ARMS コンソールにログインします。
左側のナビゲーションウィンドウで、[Integration Center] をクリックします。 [Infrastructure] タブで [Ack Backup Center Service Monitoring] を検索し、[Ack Backup Center Service Monitoring] をクリックして統合ページに移動します。
[Start Integration] タブで、バックアップセンターがインストールされている Container Service for Kubernetes (ACK) クラスターを選択し、[OK] をクリックします。
統合が完了したら、ACK コンソールまたは ARMS コンソールにログインしてダッシュボードを表示できます。
バックアップセンターのダッシュボードの表示
ダッシュボードエントランス
ACK コンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
クラスター ページで、目的のクラスターを見つけてその名前をクリックします。 左側のペインで、 を選択します。
[Prometheus モニタリング] ページで、[その他] タブをクリックし、[ACK BackupCenter] タブでバックアップセンターのダッシュボードを表示します。
ARMS コンソールでバックアップセンターのダッシュボードを表示する方法の詳細については、「ダッシュボードの表示」をご参照ください。
ダッシュボードの紹介
次のバックアップセンターダッシュボードがサポートされています: Backup Locations (バックアップボールト情報)、Backup Operation Status (バックアップタスク情報)、および Addon Status (動作中のコンポーネント情報)。
Backup Locations
このダッシュボードには、現在のクラスターに関連付けられているバックアップボールトの詳細情報 (Backuplocation Detail) が表示されます。
バックアップボールトはバックアップファイルを保存し、バックアップセンターと Object Storage Service (OSS) バケットとの関連付けを表示します。 バックアップセンターは、バックアップボールトが Available 状態になった後にのみ、バックアップ、スナップショット、および復元タスクを実行できます。 次の表に、Backuplocation Detail メトリックを示します。
メトリック | 説明 |
Backuplocation | バックアップボールトの名前。 |
OSS Bucket | バックアップボールトに関連付けられている OSS バケットの名前。 |
Region | OSS バケットのリージョン (cn-hangzhou など)。 |
NetworkPolicy | バックアップボールトと OSS バケット間のネットワーク接続のタイプ。 有効な値:
|
Phase | バックアップボールトのステータス。 有効な値:
|
Backup Operation Status
このダッシュボードには、すべてのバックアップタスクの概要 (Backup Overview) と失敗したバックアップタスクの詳細 (Failed Backup Detail) を含む、バックアップタスクのステータスが表示されます。

Backup Overview: ヒストグラムを使用して、現在のクラスターの各バックアップボールトで作成されたバックアップタスクの数を表示します。 バックアップタスクには、即時バックアップタスクとスケジュールされたバックアップタスクが含まれます。 X 軸にはバックアップボールトの名前が表示され、Y 軸には各バックアップボールトのバックアップタスクの数が表示されます。 次の表に、Backup Overview メトリックを示します。
メトリック
説明
Backup (Failed)
赤いバーは、失敗したバックアップタスクの数を表示します。
Backup (Completed)
緑のバーは、成功したバックアップタスクの数を表示します。
Failed Backup Detail: 現在のクラスターで失敗したバックアップタスクの基本情報を表示します。 次の表に、Failed Backup Detail メトリックを示します。
メトリック
説明
Backup
バックアップタスクの名前。
Backuplocation
バックアップタスクが属するバックアップボールトの名前。
BackupType
バックアップタスクのバックアップモード。 有効な値:
AppBackup: アプリケーションバックアップ (YAML バックアップ) のみを作成します。
AppAndPvBackup: アプリケーションとデータのバックアップを作成します。 YAML ファイルと永続ボリューム (PV) に保存されているデータがバックアップされます。
DataType
データバックアップのタイプ。 有効な値:
snapshot: PV はディスクボリュームです。
hbr: PV は、HostPath ローカルボリューム、NAS ボリューム、OSS ボリュームなどのファイルシステムボリュームです。
all: PV にはディスクボリュームとファイルシステムボリュームが含まれます。
none: データバックアップは有効です。 ただし、指定された名前空間では PV は使用されません。
FromSchedule
バックアップジョブのソース。
Empty: 即時バックアップタスク。
Not empty: スケジュールされたバックアップタスク。 バックアッププランの名前が表示されます。
Addon Status
このダッシュボードには、csdr-controller および csdr-velero 動作コンポーネントのステータスが表示されます。 バックアップセンターがバックアップ、スナップショット、および復元タスクを実行できるように、動作コンポーネントが正常に実行されていることを確認してください。
バックアップセンターコンポーネント migrate-controller がインストールされると、クラスターで事前チェックが実行されます。 事前チェックが完了すると、migrate-controller は csdr-controller および csdr-velero 動作コンポーネントをバックアップセンターの csdr 名前空間にデプロイします。

csdr-controller および csdr-velero 動作コンポーネントは Deployment Pod で実行されます。 次の表に、Addon Status メトリックを示します。
メトリック | 説明 |
Age | 動作コンポーネントのアップタイム。 |
Status | 動作コンポーネントのステータス。 有効な値:
|
Pods | 動作コンポーネント Pod の詳細情報。 |
Memory Request | 動作コンポーネント用に予約されているメモリリソースの量。 |
CPU Request | 動作コンポーネント用に予約されている CPU リソースの量。 |
Memory Limit | 動作コンポーネントのメモリ上限。 |
CPU Limit | 動作コンポーネントの CPU 上限。 |
バックアップタスクの失敗に対するアラートの設定
バックアップタスクの失敗に関するアラートはイベントアラートです。 各バックアップタスクに対して、csdr.alibabacloud.com リソースグループに applicationbackups カスタムリソース定義 (CRD) が作成されます。 バックアップタスクが失敗すると、CRD は WARN イベントを生成します。
失敗したバックアップタスクに対して生成された WARN イベントのクエリ
次のコマンドを実行して、失敗したバックアップタスクに対して生成された WARN イベントをクエリします:
kubectl -n csdr get events --field-selector='type!=Normal' 予想される出力:
VaultError: backup vault is unavailable: oss: service returned error: StatusCode=403, ErrorCode=AccessDenied, ErrorMessage="The bucket you access does not belong to you.", RequestId=668516BC35F915******VaultError は失敗の原因を表示します。
バックアップタスクの失敗に対して WARN イベントを生成するためのアラートルールの設定
ACK クラスターのアラート機能を使用してアラートルールを設定します。 詳細については、「アラート管理」をご参照ください。
異常なモニタリングデータの分析
動作コンポーネントが存在しない、または異常な状態 (UnHealth) にある問題のトラブルシューティング
バックアップセンターのインストール後、動作コンポーネントが見つからないか、繰り返しデプロイされます。
次のコマンドを実行して、migrate-controller コンポーネントのステータスをクエリします:
kubectl -n kube-system get pod -l app=migrate-controllerコンポーネントが
CrashLoopBackOff状態にあるか、再起動を繰り返す場合、クラスターは事前チェックに失敗します。 通常、この問題は、クラスターが FlexVolume を使用しているか、登録済みクラスターに必要な権限がないために発生します。 詳細については、「バックアップセンターに関する FAQ」および「登録済みクラスター」をご参照ください。動作コンポーネントの UnHealth 状態が長時間続きます。 Pod ダッシュボードにはデータや異常な状態が表示されません。
動作コンポーネントの Pod を起動できません。 詳細については、「Pod のトラブルシューティング」をご参照ください。
動作コンポーネントは Health 状態ですが、Pod ダッシュボードに表示される再起動の数は 0 ではありません。
csdr-velero コンポーネントのメモリ使用量は、バックアッププロセス中に急増します。 このシナリオでは、メモリ不足 (OOM) エラーが簡単に発生し、コンポーネントが例外的に終了する原因となります。 メモリ使用量を増やすことで、この問題を解決できます。
説明バックアッププロセス中に動作コンポーネントの Pod が例外的に終了した場合、バックアップタスクは失敗するか、長時間 InProgress 状態のままになります。
バックアップボールトが異常な状態 (Unavailable) にある問題のトラブルシューティング
次のコマンドを実行して、エラーメッセージを表示します。
異常な状態のバックアップボールトの名前に <unavailable-backuplocation-name> を置き換えます。
kubectl -n csdr describe backuplocation <unavailabe-backuplocation-name> バックアップボールトの例外のトラブルシューティングの詳細については、「バックアップセンターに関する FAQ」をご参照ください。
バックアップタスクの失敗のトラブルシューティング
CLI の使用
次のコマンドを実行して、エラーメッセージを表示します。
失敗したバックアップタスクの名前に <failed-applicationbackup-name> を置き換えます。
kubectl -ncsdr describe applicationbackup <failed-applicationbackup-name> バックアップタスクの失敗のトラブルシューティングの詳細については、「バックアップセンターに関する FAQ」をご参照ください。
コンソールの使用
ACK コンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。
クラスター ページで、目的のクラスターを見つけてその名前をクリックします。 左側のペインで、 を選択します。
[アプリケーションバックアップ] ページで、[バックアップレコード] タブをクリックし、失敗したバックアップタスクを見つけて、[ステータス] 列の [失敗] をクリックしてエラーメッセージを表示します。