バックアップセンターを Managed Service for Prometheus と統合し、Managed Service for Prometheus を使用してバックアップボールトとタスクのステータスをリアルタイムで監視できます。このトピックでは、バックアップセンターの監視方法とアラートの設定方法について説明します。
前提条件
バックアップサービスコンポーネント migrate-controller がインストールされており、コンポーネントのバージョンが v1.7.10 以降であること。詳細については、「migrate-controller をインストールして権限を付与する」および「コンポーネントを管理する」をご参照ください。
1.20 より前の Kubernetes バージョンを実行しているクラスターには、最新の migrate-controller バージョンをインストールできません。バックアップセンターの監視機能を使用するには、まずクラスターの Kubernetes バージョンを更新してください。詳細については、「クラスターを手動で更新する」をご参照ください。
クラスターで Managed Service for Prometheus が有効になっていること。
課金
migrate-controller コンポーネントは、メトリックを Managed Service for Prometheus に送信します。これらのメトリックは カスタムメトリック と見なされます。カスタムメトリックを使用すると、追加料金が発生します。
バックアップセンターの監視機能を有効にする前に、「メトリック」を読んで、カスタムメトリックの課金ルールをご確認ください。料金は、クラスターサイズとアプリケーションの数によって異なる場合があります。また、Managed Service for Prometheus で リソース使用量を表示 することもできます。
バックアップセンターと Managed Service for Prometheus の連携
Managed Service for Prometheus を使用して、クラスターに関連付けられているバックアップボールトのステータスと、クラスター内のバックアップタスクのステータスを監視できます。
ARMS コンソール にログインします。
左側のナビゲーションウィンドウで、[統合センター] をクリックします。[インフラストラクチャ] タブで、[Ack バックアップセンター] を検索してクリックし、統合ページに移動します。
[統合の開始] タブで、バックアップセンターがインストールされている Container Service for Kubernetes (ACK) クラスターを選択し、[OK] をクリックします。
統合が完了したら、ACK コンソールまたは ARMS コンソールにログインしてダッシュボードを表示できます。
バックアップセンターのダッシュボードを表示する
手順
ACK コンソール にログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターを見つけて名前をクリックします。左側のウィンドウで、 を選択します。
[Prometheus 監視] ページで、[その他] タブをクリックし、[ACK BackupCenter] タブの下にあるバックアップセンターのダッシュボードを表示します。
ARMS コンソールでバックアップセンターのダッシュボードを表示する方法の詳細については、「ダッシュボードを表示する」をご参照ください。
ダッシュボードの概要
次のバックアップセンターダッシュボードがサポートされています。バックアップの場所 (バックアップボールト情報)、バックアップ操作のステータス (バックアップタスク情報)、アドオンのステータス (動作コンポーネント情報)。
バックアップの場所
このダッシュボードには、現在のクラスターに関連付けられているバックアップボールトの詳細情報 (Backuplocation Detail) が表示されます。
バックアップボールトにはバックアップファイルが保存され、バックアップセンターと Object Storage Service (OSS) バケット間の関連付けが表示されます。バックアップセンターは、バックアップボールトが Available 状態になった後にのみ、バックアップ、スナップショット、およびリストアタスクを実行できます。次の表に、Backuplocation Detail メトリックを示します。
メトリック | 説明 |
Backuplocation | バックアップボールトの名前。 |
OSS バケット | バックアップボールトに関連付けられている OSS バケットの名前。 |
リージョン | OSS バケットのリージョン (例: cn-hangzhou)。 |
NetworkPolicy | バックアップボールトと OSS バケット間のネットワーク接続のタイプ。有効な値:
|
フェーズ | バックアップボールトのステータス。有効な値:
|
バックアップ操作のステータス
このダッシュボードには、すべてのバックアップタスクの概要 (バックアップの概要) と失敗したバックアップタスクの詳細 (失敗したバックアップの詳細) を含む、バックアップタスクのステータスが表示されます。
バックアップの概要: ヒストグラムを使用して、現在のクラスターの各バックアップボールトに作成されたバックアップタスクの数が表示されます。バックアップタスクには、インスタントバックアップタスクとスケジュールされたバックアップタスクが含まれます。X 軸にはバックアップボールトの名前が表示され、Y 軸には各バックアップボールトのバックアップタスクの数が表示されます。次の表に、バックアップの概要メトリックを示します。
メトリック
説明
バックアップ (失敗)
赤いバーは、失敗したバックアップタスクの数を示します。
バックアップ (完了)
緑色のバーは、成功したバックアップタスクの数を示します。
失敗したバックアップの詳細: 現在のクラスターで失敗したバックアップタスクの基本情報を表示します。次の表に、失敗したバックアップの詳細メトリックを示します。
メトリック
説明
バックアップ
バックアップタスクの名前。
Backuplocation
バックアップタスクが属するバックアップボールトの名前。
BackupType
バックアップタスクのバックアップモード。有効な値:
AppBackup: アプリケーションバックアップ (YAML バックアップ) のみを作成します。
AppAndPvBackup: アプリケーションとデータのバックアップを作成します。YAML ファイルと永続ボリューム (PV) に保存されているデータがバックアップされます。
DataType
データバックアップのタイプ。有効な値:
snapshot: PV はディスクボリュームです。
hbr: PV はファイルシステムボリュームです (HostPath ローカルボリューム、NAS ボリューム、OSS ボリュームなど)。
all: PV には、ディスクボリュームとファイルシステムボリュームが含まれます。
none: データバックアップは有効になっています。ただし、指定された名前空間では PV は使用されていません。
FromSchedule
バックアップタスクのタイプ。有効な値:
Empty: インスタントバックアップタスク。
空ではない: スケジュールされたバックアップタスク。バックアッププランの名前が表示されます。
アドオンのステータス
このダッシュボードには、csdr-controller と csdr-velero の動作コンポーネントのステータスが表示されます。バックアップセンターがバックアップ、スナップショット、およびリストアタスクを実行できるように、動作コンポーネントが正常に実行されていることを確認してください。
バックアップセンターコンポーネント migrate-controller がインストールされると、クラスターで事前チェックが実行されます。事前チェックが完了すると、migrate-controller はバックアップセンターの csdr 名前空間に csdr-controller と csdr-velero の動作コンポーネントをデプロイします。
csdr-controller と csdr-velero の動作コンポーネントは、Deployment ポッドで実行されます。次の表に、アドオンのステータス メトリックを示します。
メトリック | 説明 |
経過時間 | 動作コンポーネントの稼働時間。 |
ステータス | 動作コンポーネントのステータス。有効な値:
|
ポッド | 動作コンポーネントポッドの詳細情報。 |
メモリ要求 | 動作コンポーネント用に予約されているメモリリソースの量。 |
CPU 要求 | 動作コンポーネント用に予約されている CPU リソースの量。 |
メモリ制限 | 動作コンポーネントのメモリの上限。 |
CPU 制限 | 動作コンポーネントの CPU の上限。 |
バックアップタスクの失敗に対するアラートを設定する
バックアップタスクの失敗に対するアラートは、イベントアラートです。各バックアップタスクに対して、csdr.alibabacloud.com リソースグループに applicationbackups カスタムリソース定義 (CRD) が作成されます。バックアップタスクが失敗すると、CRD は WARN イベントを生成します。
失敗したバックアップタスクに対して生成された WARN イベントをクエリする
次のコマンドを実行して、失敗したバックアップタスクに対して生成された WARN イベントをクエリします。
kubectl -n csdr get events --field-selector='type!=Normal'
予期される出力:
VaultError: backup vault is unavailable: oss: service returned error: StatusCode=403, ErrorCode=AccessDenied, ErrorMessage="The bucket you access does not belong to you.", RequestId=668516BC35F915******
VaultError には、失敗の原因が表示されます。
バックアップタスクの失敗に対して WARN イベントを生成するアラートルールを設定する
ACK クラスターのアラート機能を使用して、アラートルールを設定します。詳細については、「アラート管理」をご参照ください。
異常なモニタリングデータを分析する
動作コンポーネントが存在しない、または異常な状態 (UnHealth) であるという問題のトラブルシューティング
バックアップセンターをインストールした後、動作コンポーネントが見つからないか、繰り返しデプロイされます。
次のコマンドを実行して、migrate-controller コンポーネントのステータスをクエリします。
kubectl -n kube-system get pod -l app=migrate-controller
コンポーネントが
CrashLoopBackOff
状態であるか、再起動し続ける場合、クラスターは事前チェックに合格しません。通常、この問題は、クラスターが FlexVolume を使用しているか、登録済みクラスターに必要な権限がないために発生します。詳細については、「バックアップセンターに関するよくある質問」および「登録済みクラスター」をご参照ください。動作コンポーネントの UnHealth 状態が長時間続きます。ポッドダッシュボードには、データも異常な状態も表示されません。
動作コンポーネントのポッドを起動できません。詳細については、「ポッドのトラブルシューティング」をご参照ください。
動作コンポーネントは Health 状態ですが、ポッドダッシュボードに表示される再起動回数は 0 ではありません。
バックアッププロセス中に、csdr-velero コンポーネントのメモリ使用量が急増します。このシナリオでは、メモリ不足 (OOM) エラーが簡単に発生し、コンポーネントが異常終了する可能性があります。メモリ使用量を増やすことで、この問題を解決できます。
説明バックアッププロセス中に動作コンポーネントのポッドが異常終了した場合、バックアップタスクは失敗するか、InProgress 状態が長時間続きます。
バックアップボールトが異常な状態 (Unavailable) であるという問題のトラブルシューティング)
次のコマンドを実行して、エラーメッセージを表示します。
<unavailable-backuplocation-name>
を、異常な状態のバックアップボールトの名前に置き換えます。
kubectl -n csdr describe backuplocation <unavailabe-backuplocation-name>
バックアップボールトの例外のトラブルシューティングの詳細については、「バックアップセンターに関するよくある質問」をご参照ください。
バックアップタスクの失敗のトラブルシューティング
CLI を使用する
次のコマンドを実行して、エラーメッセージを表示します。
<failed-applicationbackup-name>
を、失敗したバックアップタスクの名前に置き換えます。
kubectl -n csdr describe applicationbackup <failed-applicationbackup-name>
バックアップタスクの失敗のトラブルシューティングの詳細については、「バックアップセンターに関するよくある質問」をご参照ください。
コンソールを使用する
ACK コンソール にログインします。左側のナビゲーションウィンドウで、[クラスター] をクリックします。
[クラスター] ページで、管理するクラスターを見つけて名前をクリックします。左側のウィンドウで、 を選択します。
[アプリケーションバックアップ] ページで、[バックアップレコード] タブをクリックし、失敗したバックアップタスクを見つけて、[ステータス] 列の [失敗] をクリックしてエラーメッセージを表示します。