すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:Managed Service for Prometheus を使用してバックアップセンターをモニタリングし、アラートを設定する

最終更新日:Nov 09, 2025

バックアップセンターを Managed Service for Prometheus と統合して、バックアップボールトとタスクのステータスをリアルタイムでモニタリングできます。このトピックでは、バックアップセンターをモニタリングし、アラートを設定する方法について説明します。

前提条件

  • バックアップサービスコンポーネント migrate-controller がインストールされており、コンポーネントのバージョンが v1.7.10 以降であること。 詳細については、「migrate-controller のインストールと権限の付与」および「コンポーネントの管理」をご参照ください。

  • Kubernetes バージョンが 1.20 より前のクラスターには、最新の migrate-controller バージョンをインストールできません。 バックアップセンターのモニタリング機能を使用するには、まずクラスターの Kubernetes バージョンを更新してください。 詳細については、「クラスターの手動更新」をご参照ください。

  • クラスターで Managed Service for Prometheus が有効になっていること。

課金

migrate-controller コンポーネントは、メトリックを Managed Service for Prometheus に送信します。 これらのメトリックは カスタムメトリック と見なされます。 カスタムメトリックを使用すると、追加料金が発生します。

バックアップセンターのモニタリング機能を有効にする前に、「課金の概要」を読んでカスタムメトリックの課金ルールを理解することをお勧めします。 料金は、クラスターのサイズとアプリケーションの数によって異なる場合があります。 Managed Service for Prometheus で「リソース使用量の表示」をすることもできます。

バックアップセンターと Managed Service for Prometheus の連携

Managed Service for Prometheus を使用して、クラスターに関連付けられているバックアップボールトのステータスと、クラスター内のバックアップタスクのステータスをモニタリングできます。

  1. ARMS コンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[Integration Center] をクリックします。 [Infrastructure] タブで [Ack Backup Center Service Monitoring] を検索し、[Ack Backup Center Service Monitoring] をクリックして統合ページに移動します。

  3. [Start Integration] タブで、バックアップセンターがインストールされている Container Service for Kubernetes (ACK) クラスターを選択し、[OK] をクリックします。

    統合が完了したら、ACK コンソールまたは ARMS コンソールにログインしてダッシュボードを表示できます。

バックアップセンターのダッシュボードの表示

ダッシュボードエントランス

  1. ACK コンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. クラスター ページで、目的のクラスターを見つけてその名前をクリックします。 左側のペインで、[オペレーション] > [Prometheus モニタリング] を選択します。

  3. [Prometheus モニタリング] ページで、[その他] タブをクリックし、[ACK BackupCenter] タブでバックアップセンターのダッシュボードを表示します。

説明

ARMS コンソールでバックアップセンターのダッシュボードを表示する方法の詳細については、「ダッシュボードの表示」をご参照ください。

ダッシュボードの紹介

次のバックアップセンターダッシュボードがサポートされています: Backup Locations (バックアップボールト情報)、Backup Operation Status (バックアップタスク情報)、および Addon Status (動作中のコンポーネント情報)。

Backup Locations

このダッシュボードには、現在のクラスターに関連付けられているバックアップボールトの詳細情報 (Backuplocation Detail) が表示されます。image

バックアップボールトはバックアップファイルを保存し、バックアップセンターと Object Storage Service (OSS) バケットとの関連付けを表示します。 バックアップセンターは、バックアップボールトが Available 状態になった後にのみ、バックアップ、スナップショット、および復元タスクを実行できます。 次の表に、Backuplocation Detail メトリックを示します。

メトリック

説明

Backuplocation

バックアップボールトの名前。

OSS Bucket

バックアップボールトに関連付けられている OSS バケットの名前。

Region

OSS バケットのリージョン (cn-hangzhou など)。

NetworkPolicy

バックアップボールトと OSS バケット間のネットワーク接続のタイプ。 有効な値:

  • internal: 内部ネットワーク。

  • public: インターネット。

Phase

バックアップボールトのステータス。 有効な値:

  • InProgress: バックアップボールトは初期化を実行し、OSS バケットへの接続性をチェックしています。 この状態は短時間続きます。

  • Available: OSS バケットへの接続性は正常です。 OSS バケットはバックアップタスクに使用できます。

  • Unavailable: バックアップボールトは OSS バケットから切断されています。 OSS バケットはバックアップタスクに使用できません。

Backup Operation Status

このダッシュボードには、すべてのバックアップタスクの概要 (Backup Overview) と失敗したバックアップタスクの詳細 (Failed Backup Detail) を含む、バックアップタスクのステータスが表示されます。

image

  • Backup Overview: ヒストグラムを使用して、現在のクラスターの各バックアップボールトで作成されたバックアップタスクの数を表示します。 バックアップタスクには、即時バックアップタスクとスケジュールされたバックアップタスクが含まれます。 X 軸にはバックアップボールトの名前が表示され、Y 軸には各バックアップボールトのバックアップタスクの数が表示されます。 次の表に、Backup Overview メトリックを示します。

    メトリック

    説明

    Backup (Failed)

    赤いバーは、失敗したバックアップタスクの数を表示します。

    Backup (Completed)

    緑のバーは、成功したバックアップタスクの数を表示します。

  • Failed Backup Detail: 現在のクラスターで失敗したバックアップタスクの基本情報を表示します。 次の表に、Failed Backup Detail メトリックを示します。

    メトリック

    説明

    Backup

    バックアップタスクの名前。

    Backuplocation

    バックアップタスクが属するバックアップボールトの名前。

    BackupType

    バックアップタスクのバックアップモード。 有効な値:

    • AppBackup: アプリケーションバックアップ (YAML バックアップ) のみを作成します。

    • AppAndPvBackup: アプリケーションとデータのバックアップを作成します。 YAML ファイルと永続ボリューム (PV) に保存されているデータがバックアップされます。

    DataType

    データバックアップのタイプ。 有効な値:

    • snapshot: PV はディスクボリュームです。

    • hbr: PV は、HostPath ローカルボリューム、NAS ボリューム、OSS ボリュームなどのファイルシステムボリュームです。

    • all: PV にはディスクボリュームとファイルシステムボリュームが含まれます。

    • none: データバックアップは有効です。 ただし、指定された名前空間では PV は使用されません。

    FromSchedule

    バックアップジョブのソース。

    • Empty: 即時バックアップタスク。

    • Not empty: スケジュールされたバックアップタスク。 バックアッププランの名前が表示されます。

Addon Status

このダッシュボードには、csdr-controller および csdr-velero 動作コンポーネントのステータスが表示されます。 バックアップセンターがバックアップ、スナップショット、および復元タスクを実行できるように、動作コンポーネントが正常に実行されていることを確認してください。

バックアップセンターコンポーネント migrate-controller がインストールされると、クラスターで事前チェックが実行されます。 事前チェックが完了すると、migrate-controller は csdr-controller および csdr-velero 動作コンポーネントをバックアップセンターの csdr 名前空間にデプロイします。

image

csdr-controller および csdr-velero 動作コンポーネントは Deployment Pod で実行されます。 次の表に、Addon Status メトリックを示します。

メトリック

説明

Age

動作コンポーネントのアップタイム。

Status

動作コンポーネントのステータス。 有効な値:

  • Health: 動作コンポーネントの Pod は正常に実行されます。

  • UnHealth: 動作コンポーネントの Pod を起動できないか、プローブに失敗しました。

Pods

動作コンポーネント Pod の詳細情報。

Memory Request

動作コンポーネント用に予約されているメモリリソースの量。

CPU Request

動作コンポーネント用に予約されている CPU リソースの量。

Memory Limit

動作コンポーネントのメモリ上限。

CPU Limit

動作コンポーネントの CPU 上限。

バックアップタスクの失敗に対するアラートの設定

バックアップタスクの失敗に関するアラートはイベントアラートです。 各バックアップタスクに対して、csdr.alibabacloud.com リソースグループに applicationbackups カスタムリソース定義 (CRD) が作成されます。 バックアップタスクが失敗すると、CRD は WARN イベントを生成します。

失敗したバックアップタスクに対して生成された WARN イベントのクエリ

次のコマンドを実行して、失敗したバックアップタスクに対して生成された WARN イベントをクエリします:

kubectl -n csdr get events --field-selector='type!=Normal' 

予想される出力:

VaultError: backup vault is unavailable: oss: service returned error: StatusCode=403, ErrorCode=AccessDenied, ErrorMessage="The bucket you access does not belong to you.", RequestId=668516BC35F915******

VaultError は失敗の原因を表示します。

バックアップタスクの失敗に対して WARN イベントを生成するためのアラートルールの設定

ACK クラスターのアラート機能を使用してアラートルールを設定します。 詳細については、「アラート管理」をご参照ください。

異常なモニタリングデータの分析

動作コンポーネントが存在しない、または異常な状態 (UnHealth) にある問題のトラブルシューティング

  • バックアップセンターのインストール後、動作コンポーネントが見つからないか、繰り返しデプロイされます。

    次のコマンドを実行して、migrate-controller コンポーネントのステータスをクエリします:

    kubectl -n kube-system get pod -l app=migrate-controller

    コンポーネントが CrashLoopBackOff 状態にあるか、再起動を繰り返す場合、クラスターは事前チェックに失敗します。 通常、この問題は、クラスターが FlexVolume を使用しているか、登録済みクラスターに必要な権限がないために発生します。 詳細については、「バックアップセンターに関する FAQ」および「登録済みクラスター」をご参照ください。

  • 動作コンポーネントの UnHealth 状態が長時間続きます。 Pod ダッシュボードにはデータや異常な状態が表示されません。

    動作コンポーネントの Pod を起動できません。 詳細については、「Pod のトラブルシューティング」をご参照ください。

  • 動作コンポーネントは Health 状態ですが、Pod ダッシュボードに表示される再起動の数は 0 ではありません。

    csdr-velero コンポーネントのメモリ使用量は、バックアッププロセス中に急増します。 このシナリオでは、メモリ不足 (OOM) エラーが簡単に発生し、コンポーネントが例外的に終了する原因となります。 メモリ使用量を増やすことで、この問題を解決できます。

    説明

    バックアッププロセス中に動作コンポーネントの Pod が例外的に終了した場合、バックアップタスクは失敗するか、長時間 InProgress 状態のままになります。

バックアップボールトが異常な状態 (Unavailable) にある問題のトラブルシューティング

次のコマンドを実行して、エラーメッセージを表示します。

異常な状態のバックアップボールトの名前に <unavailable-backuplocation-name> を置き換えます。

kubectl -n csdr describe backuplocation <unavailabe-backuplocation-name> 

バックアップボールトの例外のトラブルシューティングの詳細については、「バックアップセンターに関する FAQ」をご参照ください。

バックアップタスクの失敗のトラブルシューティング

CLI の使用

次のコマンドを実行して、エラーメッセージを表示します。

失敗したバックアップタスクの名前に <failed-applicationbackup-name> を置き換えます。

kubectl -ncsdr describe applicationbackup <failed-applicationbackup-name> 

バックアップタスクの失敗のトラブルシューティングの詳細については、「バックアップセンターに関する FAQ」をご参照ください。

コンソールの使用

  1. ACK コンソールにログインします。 左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. クラスター ページで、目的のクラスターを見つけてその名前をクリックします。 左側のペインで、[オペレーション] > [アプリケーションバックアップ] を選択します。

  3. [アプリケーションバックアップ] ページで、[バックアップレコード] タブをクリックし、失敗したバックアップタスクを見つけて、[ステータス] 列の [失敗] をクリックしてエラーメッセージを表示します。