すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:Managed Service for Prometheus を使用してバックアップセンターを監視し、アラートを設定する

最終更新日:Jul 07, 2025

バックアップセンターを Managed Service for Prometheus と統合し、Managed Service for Prometheus を使用してバックアップボールトとタスクのステータスをリアルタイムで監視できます。このトピックでは、バックアップセンターの監視方法とアラートの設定方法について説明します。

前提条件

  • バックアップサービスコンポーネント migrate-controller がインストールされており、コンポーネントのバージョンが v1.7.10 以降であること。詳細については、「migrate-controller をインストールして権限を付与する」および「コンポーネントを管理する」をご参照ください。

  • 1.20 より前の Kubernetes バージョンを実行しているクラスターには、最新の migrate-controller バージョンをインストールできません。バックアップセンターの監視機能を使用するには、まずクラスターの Kubernetes バージョンを更新してください。詳細については、「クラスターを手動で更新する」をご参照ください。

  • クラスターで Managed Service for Prometheus が有効になっていること。

課金

migrate-controller コンポーネントは、メトリックを Managed Service for Prometheus に送信します。これらのメトリックは カスタムメトリック と見なされます。カスタムメトリックを使用すると、追加料金が発生します。

バックアップセンターの監視機能を有効にする前に、「メトリック」を読んで、カスタムメトリックの課金ルールをご確認ください。料金は、クラスターサイズとアプリケーションの数によって異なる場合があります。また、Managed Service for Prometheus で リソース使用量を表示 することもできます。

バックアップセンターと Managed Service for Prometheus の連携

Managed Service for Prometheus を使用して、クラスターに関連付けられているバックアップボールトのステータスと、クラスター内のバックアップタスクのステータスを監視できます。

  1. ARMS コンソール にログインします。

  2. 左側のナビゲーションウィンドウで、[統合センター] をクリックします。[インフラストラクチャ] タブで、[Ack バックアップセンター] を検索してクリックし、統合ページに移動します。

  3. [統合の開始] タブで、バックアップセンターがインストールされている Container Service for Kubernetes (ACK) クラスターを選択し、[OK] をクリックします。

    統合が完了したら、ACK コンソールまたは ARMS コンソールにログインしてダッシュボードを表示できます。

バックアップセンターのダッシュボードを表示する

手順

  1. ACK コンソール にログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. [クラスター] ページで、管理するクラスターを見つけて名前をクリックします。左側のウィンドウで、[操作] > [Prometheus 監視] を選択します。

  3. [Prometheus 監視] ページで、[その他] タブをクリックし、[ACK BackupCenter] タブの下にあるバックアップセンターのダッシュボードを表示します。

説明

ARMS コンソールでバックアップセンターのダッシュボードを表示する方法の詳細については、「ダッシュボードを表示する」をご参照ください。

ダッシュボードの概要

次のバックアップセンターダッシュボードがサポートされています。バックアップの場所 (バックアップボールト情報)、バックアップ操作のステータス (バックアップタスク情報)、アドオンのステータス (動作コンポーネント情報)。

バックアップの場所

このダッシュボードには、現在のクラスターに関連付けられているバックアップボールトの詳細情報 (Backuplocation Detail) が表示されます。image

バックアップボールトにはバックアップファイルが保存され、バックアップセンターと Object Storage Service (OSS) バケット間の関連付けが表示されます。バックアップセンターは、バックアップボールトが Available 状態になった後にのみ、バックアップ、スナップショット、およびリストアタスクを実行できます。次の表に、Backuplocation Detail メトリックを示します。

メトリック

説明

Backuplocation

バックアップボールトの名前。

OSS バケット

バックアップボールトに関連付けられている OSS バケットの名前。

リージョン

OSS バケットのリージョン (例: cn-hangzhou)。

NetworkPolicy

バックアップボールトと OSS バケット間のネットワーク接続のタイプ。有効な値:

  • internal: 内部ネットワーク

  • Public: インターネット。

フェーズ

バックアップボールトのステータス。有効な値:

  • InProgress: バックアップボールトは初期化を実行し、OSS バケットへの接続を確認しています。この状態は短時間続きます。

  • Available: OSS バケットへの接続は正常です。OSS バケットはバックアップタスクに使用できます。

  • Unavailable: バックアップボールトは OSS バケットから切断されています。OSS バケットはバックアップタスクに使用できません。

バックアップ操作のステータス

このダッシュボードには、すべてのバックアップタスクの概要 (バックアップの概要) と失敗したバックアップタスクの詳細 (失敗したバックアップの詳細) を含む、バックアップタスクのステータスが表示されます。

image

  • バックアップの概要: ヒストグラムを使用して、現在のクラスターの各バックアップボールトに作成されたバックアップタスクの数が表示されます。バックアップタスクには、インスタントバックアップタスクとスケジュールされたバックアップタスクが含まれます。X 軸にはバックアップボールトの名前が表示され、Y 軸には各バックアップボールトのバックアップタスクの数が表示されます。次の表に、バックアップの概要メトリックを示します。

    メトリック

    説明

    バックアップ (失敗)

    赤いバーは、失敗したバックアップタスクの数を示します。

    バックアップ (完了)

    緑色のバーは、成功したバックアップタスクの数を示します。

  • 失敗したバックアップの詳細: 現在のクラスターで失敗したバックアップタスクの基本情報を表示します。次の表に、失敗したバックアップの詳細メトリックを示します。

    メトリック

    説明

    バックアップ

    バックアップタスクの名前。

    Backuplocation

    バックアップタスクが属するバックアップボールトの名前。

    BackupType

    バックアップタスクのバックアップモード。有効な値:

    • AppBackup: アプリケーションバックアップ (YAML バックアップ) のみを作成します。

    • AppAndPvBackup: アプリケーションとデータのバックアップを作成します。YAML ファイルと永続ボリューム (PV) に保存されているデータがバックアップされます。

    DataType

    データバックアップのタイプ。有効な値:

    • snapshot: PV はディスクボリュームです。

    • hbr: PV はファイルシステムボリュームです (HostPath ローカルボリューム、NAS ボリューム、OSS ボリュームなど)。

    • all: PV には、ディスクボリュームとファイルシステムボリュームが含まれます。

    • none: データバックアップは有効になっています。ただし、指定された名前空間では PV は使用されていません。

    FromSchedule

    バックアップタスクのタイプ。有効な値:

    • Empty: インスタントバックアップタスク。

    • 空ではない: スケジュールされたバックアップタスク。バックアッププランの名前が表示されます。

アドオンのステータス

このダッシュボードには、csdr-controller と csdr-velero の動作コンポーネントのステータスが表示されます。バックアップセンターがバックアップ、スナップショット、およびリストアタスクを実行できるように、動作コンポーネントが正常に実行されていることを確認してください。

バックアップセンターコンポーネント migrate-controller がインストールされると、クラスターで事前チェックが実行されます。事前チェックが完了すると、migrate-controller はバックアップセンターの csdr 名前空間に csdr-controller と csdr-velero の動作コンポーネントをデプロイします。

image

csdr-controller と csdr-velero の動作コンポーネントは、Deployment ポッドで実行されます。次の表に、アドオンのステータス メトリックを示します。

メトリック

説明

経過時間

動作コンポーネントの稼働時間。

ステータス

動作コンポーネントのステータス。有効な値:

  • Health: 動作コンポーネントのポッドは正常に実行されています。

  • UnHealth: 動作コンポーネントのポッドを起動できないか、プローブに失敗しました。

ポッド

動作コンポーネントポッドの詳細情報。

メモリ要求

動作コンポーネント用に予約されているメモリリソースの量。

CPU 要求

動作コンポーネント用に予約されている CPU リソースの量。

メモリ制限

動作コンポーネントのメモリの上限。

CPU 制限

動作コンポーネントの CPU の上限。

バックアップタスクの失敗に対するアラートを設定する

バックアップタスクの失敗に対するアラートは、イベントアラートです。各バックアップタスクに対して、csdr.alibabacloud.com リソースグループに applicationbackups カスタムリソース定義 (CRD) が作成されます。バックアップタスクが失敗すると、CRD は WARN イベントを生成します。

失敗したバックアップタスクに対して生成された WARN イベントをクエリする

次のコマンドを実行して、失敗したバックアップタスクに対して生成された WARN イベントをクエリします。

kubectl -n csdr get events --field-selector='type!=Normal' 

予期される出力:

VaultError: backup vault is unavailable: oss: service returned error: StatusCode=403, ErrorCode=AccessDenied, ErrorMessage="The bucket you access does not belong to you.", RequestId=668516BC35F915******

VaultError には、失敗の原因が表示されます。

バックアップタスクの失敗に対して WARN イベントを生成するアラートルールを設定する

ACK クラスターのアラート機能を使用して、アラートルールを設定します。詳細については、「アラート管理」をご参照ください。

異常なモニタリングデータを分析する

動作コンポーネントが存在しない、または異常な状態 (UnHealth) であるという問題のトラブルシューティング

  • バックアップセンターをインストールした後、動作コンポーネントが見つからないか、繰り返しデプロイされます。

    次のコマンドを実行して、migrate-controller コンポーネントのステータスをクエリします。

    kubectl -n kube-system get pod -l app=migrate-controller

    コンポーネントが CrashLoopBackOff 状態であるか、再起動し続ける場合、クラスターは事前チェックに合格しません。通常、この問題は、クラスターが FlexVolume を使用しているか、登録済みクラスターに必要な権限がないために発生します。詳細については、「バックアップセンターに関するよくある質問」および「登録済みクラスター」をご参照ください。

  • 動作コンポーネントの UnHealth 状態が長時間続きます。ポッドダッシュボードには、データも異常な状態も表示されません。

    動作コンポーネントのポッドを起動できません。詳細については、「ポッドのトラブルシューティング」をご参照ください。

  • 動作コンポーネントは Health 状態ですが、ポッドダッシュボードに表示される再起動回数は 0 ではありません。

    バックアッププロセス中に、csdr-velero コンポーネントのメモリ使用量が急増します。このシナリオでは、メモリ不足 (OOM) エラーが簡単に発生し、コンポーネントが異常終了する可能性があります。メモリ使用量を増やすことで、この問題を解決できます。

    説明

    バックアッププロセス中に動作コンポーネントのポッドが異常終了した場合、バックアップタスクは失敗するか、InProgress 状態が長時間続きます。

バックアップボールトが異常な状態 (Unavailable) であるという問題のトラブルシューティング)

次のコマンドを実行して、エラーメッセージを表示します。

<unavailable-backuplocation-name> を、異常な状態のバックアップボールトの名前に置き換えます。

kubectl -n csdr describe backuplocation <unavailabe-backuplocation-name> 

バックアップボールトの例外のトラブルシューティングの詳細については、「バックアップセンターに関するよくある質問」をご参照ください。

バックアップタスクの失敗のトラブルシューティング

CLI を使用する

次のコマンドを実行して、エラーメッセージを表示します。

<failed-applicationbackup-name> を、失敗したバックアップタスクの名前に置き換えます。

kubectl -n csdr describe applicationbackup <failed-applicationbackup-name> 

バックアップタスクの失敗のトラブルシューティングの詳細については、「バックアップセンターに関するよくある質問」をご参照ください。

コンソールを使用する

  1. ACK コンソール にログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。

  2. [クラスター] ページで、管理するクラスターを見つけて名前をクリックします。左側のウィンドウで、[操作] > [アプリケーションバックアップ] を選択します。

  3. [アプリケーションバックアップ] ページで、[バックアップレコード] タブをクリックし、失敗したバックアップタスクを見つけて、[ステータス] 列の [失敗] をクリックしてエラーメッセージを表示します。