ディザスタリカバリシステムは、2 つの Alibaba Cloud リージョンにまたがってデプロイされます。津波や地震などの災害により本番サイトで障害が発生した場合、業務システムは災害復旧サイトに切り替わります。このリージョン間デプロイメントは、サービスとしてのディザスタリカバリを提供します。目標復旧時点 (RPO) は最短 1 分、目標復旧時間 (RTO) は最短 15 分で、高い信頼性と業務継続性を保証します。この設定により、リージョン規模の災害によるシステム障害を効果的に防ぐことができます。
事前準備
リージョン間ディザスタリカバリを実装する前に、本番環境がデプロイされているリージョンとは異なるターゲットリージョンを選択する必要があります。ターゲットリージョンには、Virtual Private Cloud (VPC) を作成する必要があります。また、VPC 内にレプリケーション用の vSwitch とリカバリ用の vSwitch を作成する必要もあります。
ステップ1:ディザスタリカバリサイトペアの作成
事前準備が完了したら、次の手順を実行して、ソースの Elastic Compute Service (ECS) インスタンスのリージョン間ディザスタリカバリを有効にします。
Cloud Backup コンソールにログインします。
左側のナビゲーションウィンドウで、 を選択します。
[継続的なデータレプリケーションに切り替え] をクリックします。
[ディザスタリカバリセンター] ページの右上隅にある [+追加] をクリックします。
[サイトペアの作成] パネルでパラメーターを設定し、[作成] をクリックします。
データ冗長性タイプをリージョン間ディザスタリカバリに設定します。
本番サイトの情報を設定します。
本番サイトは、ディザスタリカバリが必要なソースサーバーの場所です。
パラメーター
説明
名前
本番サイトの名前を入力します。例:Hangzhou Primary Site。名前は最大 60 文字です。命名規則は次のとおりです。
特殊文字または数字で始めることはできません。
ピリオド (.)、アンダースコア (_)、ハイフン (-) のみ使用できます。
[リージョン]
[リージョン] リストから、プライマリサイトのリージョンを選択します。例:中国 (杭州)。
[VPC]
[VPC] リストから、準備段階でプライマリサイト用に作成した VPC を選択します。例:デフォルト VPC。
災害復旧サイトの情報を設定します。
災害復旧サイトのコンピューティングリソースとストレージリソースは、選択した VPC 内に作成されます。
パラメーター
説明
名前
災害復旧サイトの名前を入力します。例:Shanghai Secondary Site。名前は最大 60 文字です。命名規則は次のとおりです。
特殊文字または数字で始めることはできません。
ピリオド (.)、アンダースコア (_)、ハイフン (-) のみ使用できます。
リージョン
[リージョン] リストから、セカンダリサイトのリージョンを選択します。例:中国 (上海)。
[VPC]
[VPC] リストから、セカンダリサイトが属する VPC を選択します。例:デフォルト VPC。
ステップ2:保護対象サーバーの追加
ディザスタリカバリサイトペアが作成されたら、次の手順を実行して保護対象のサーバーを追加します。
ディザスタリカバリセンターの [保護対象サーバー] タブで、ステップ1 で作成したディザスタリカバリサイトペアを選択します。
[+追加] をクリックし、保護対象の ECS インスタンスを選択してから、[確認] をクリックします。
保護対象として、1 台以上 10 台以下の ECS インスタンスを選択できます。
サーバーのステータスが [クライアントインストール中] から [初期化済み] に変わります。サーバーのステータスが [初期化済み] にならない場合は、 を選択して、クライアントの初期化を完了します。
ステップ3:レプリケーションの開始
ディザスタリカバリレプリケーションを開始して、サーバーをクラウドにコピーし、リアルタイムレプリケーションを維持します。次の手順を実行してレプリケーションを開始します。
[保護対象サーバー] タブをクリックします。レプリケーションするサーバーの [操作] 列で、 を選択します。
[レプリケーションの開始] パネルで、次のパラメーターを設定し、[開始] をクリックします。
パラメーター
説明
リカバリポイントポリシー
リカバリポイントを作成する間隔を選択します。Cloud Backup は、この間隔で毎日リカバリポイントを作成します。単位は時間です。
ハードディスクの種類
Ultra ディスク、ESSD、SSD をサポートします。
ネットワークのコピー
レプリケーションネットワークを選択します。Cloud Backup はこのネットワークを使用して、ディザスタリカバリデータをクラウドにレプリケーションします。
デフォルトでは、Cloud Backup はセカンダリサイトの VPC から利用可能な vSwitch を読み取ります。レプリケーションネットワークとリカバリネットワークは同じ vSwitch を使用できます。リカバリに同じネットワークを使用する方が高速です。レプリケーションネットワークとリカバリネットワークが異なるゾーンにある場合、RTO は増加します。[リカバリネットワーク] と同じゾーンをレプリケーションネットワークに設定することを推奨します。
復旧ネットワーク
リカバリネットワークを選択します。ディザスタリカバリ中、Cloud Backup はこのネットワークを使用してデータをリストアします。たとえば、災害復旧訓練やフェールオーバー中に作成された ECS インスタンスはこのネットワークを使用します。
デフォルトでは、Cloud Backup はセカンダリサイトの VPC から利用可能な vSwitch を読み取ります。レプリケーションネットワークとリカバリネットワークは同じ vSwitch を使用できます。リカバリに同じネットワークを使用する方が高速です。レプリケーションネットワークとリカバリネットワークが異なるゾーンにある場合、RTO は増加します。[レプリケーションネットワーク] と同じゾーンをリカバリネットワークに設定することを推奨します。
[レプリケーション中断後の自動再起動]
レプリケーションが中断された場合にレプリケーションタスクを自動的に再起動するかどうかを指定します。自動再起動を有効にするには、このオプションを選択します。
ディザスタリカバリレプリケーションプロセスは、[レプリケーション開始中]、[フルレプリケーション]、[リアルタイムレプリケーション中] の 3 つの段階を経ます。
[レプリケーション開始中]:ECS ディザスタリカバリサービスがシステムデータをスキャンし、総データ量を推定します。この段階は通常、数分かかります。
[フルレプリケーション]:ECS ディザスタリカバリサービスが、すべての有効なサーバーデータを Alibaba Cloud に転送します。この段階に必要な時間は、データ量やネットワーク帯域幅などの要因によって異なります。コンソールの進捗横棒グラフにレプリケーションの進捗が表示されます。
[リアルタイムレプリケーション中]:フルレプリケーションが完了すると、データの完全なコピーが Alibaba Cloud で利用可能になります。その後、Aliyun Replication Service (AReS) がサーバー上のすべてのディスク書き込み操作をモニターし、リアルタイムで継続的に Alibaba Cloud にレプリケーションします。
(オプション) 災害復旧訓練の実施
サーバーがリアルタイムレプリケーション状態になった後、災害復旧訓練を実施できます。
災害復旧訓練では、保護対象のサーバーをクラウドで起動し、アプリケーションが正しく動作することを確認します。これは、ディザスタリカバリプロセス全体の重要な部分です。その主な目的は次のとおりです。
保護対象のアプリケーションがクラウドで正常に起動できることを確認します。
オペレーターがディザスタリカバリプロセスに習熟していることを確認します。この習熟により、プライマリサイトで障害が発生した場合にスムーズなスイッチオーバーを実行できます。
災害復旧訓練には、次の手順を実行します。
[保護対象サーバー] タブで、訓練対象のサーバーを見つけます。[操作] 列で、[災害復旧訓練] をクリックします。
[災害復旧訓練] パネルで、[リカバリネットワーク]、[IP アドレス]、[ECS 仕様の使用]、[ディスクタイプ]、[リカバリポイント]、[Elastic IP]、[スイッチオーバー後のスクリプト] を設定します。その後、[開始] をクリックします。
説明Cloud Backup は、各サーバーについて過去 24 時間の最新のリカバリポイントを 24 個自動的に保持します。
ECS 仕様を使用しない場合は、CPU とメモリの情報も入力する必要があります。
Alibaba Cloud は、選択された時点に基づいてバックグラウンドでサーバーを起動します。訓練中もリアルタイムのデータレプリケーションは影響を受けません。
数分後、災害復旧訓練が完了します。[災害復旧訓練情報] の下のリンクをクリックして、データとアプリケーションを確認します。
訓練環境をクリアします。
確認後、サーバーを見つけます。[操作] 列で、[訓練環境のクリア] をクリックします。リストアされた ECS インスタンスは削除されます。
説明訓練中にリストアされた ECS インスタンスを確認した後、コストを削減するために、できるだけ早く訓練環境をクリアしてください。
ステップ4:フェールオーバーの実行
定期的な災害復旧訓練により、いつでもクラウドでビジネスを開始できることが保証されます。プライマリサイトで重大な障害が発生し、クラウドでコアサービスを直ちに再起動する必要がある場合は、フェールオーバーを実行する必要があります。
フェールオーバーは、保護対象のサーバーに重大な障害が発生した場合のためのものです。この操作はリアルタイムレプリケーションプロセスを停止します。サーバーの保護を継続するには、レプリケーションを再起動し、フルレプリケーションを完了する必要があります。
フェールオーバーには、次の手順を実行します。
[保護対象サーバー] タブで、フェールオーバーするサーバーを見つけます。[操作] 列で、 を選択します。
[フェールオーバー] パネルで、[リカバリネットワーク]、[IP アドレス]、[ECS 仕様の使用]、[ディスクタイプ]、[リカバリポイント]、[Elastic IP]、[スイッチオーバー後のスクリプト] を設定します。その後、[開始] をクリックします。
重要[現在時刻] のリカバリポイントは一度しか使用できません。
フェールオーバーが完了したら、[フェールオーバー/フェイルバック情報] の下のリンクをクリックして、データとアプリケーションを確認します。
現在時刻の時点でアプリケーションが正常に動作する場合は、 を選択します。
説明フェールオーバーまたはリカバリポイントの切り替えが完了し、リストアされたアプリケーションがビジネスを引き継いだことを確認したら、フェールオーバー操作を完了します。この操作により、コストを節約するために、クラウドでディザスタリカバリレプリケーションによって使用されたリソースがクリーンアップされます。
現在時刻の時点でのアプリケーションの状態が要件を満たさない場合 (たとえば、データベースの整合性の問題や、汚染されたデータがソースリージョンから同期された場合など) は、フェールオーバーを確認する前に を選択します。
説明リカバリポイントを変更する操作は、フェールオーバーに似ています。より早いリカバリポイントを選択するだけです。
ステップ5:逆方向レプリケーション
保護対象サーバー上のアプリケーションがあるリージョン (例:リージョン A) から別のリージョン (リージョン B) にレプリケーションされた後、リージョン B からリージョン A への逆方向レプリケーションを実行できます。
逆方向レプリケーションには、次の手順を実行します。
[保護対象サーバー] タブで、逆方向レプリケーションの対象となるサーバーを見つけます。[操作] 列で、 を選択し、保護対象サーバーの逆方向登録を確認します。
[操作] 列で、 を選択します。
[逆方向レプリケーションの開始] パネルで、[インプレースリストア] を実行するかどうかを選択します。[レプリケーションネットワーク] と [リカバリネットワーク] を選択します。その後、[開始] をクリックします。
警告リージョン間およびゾーン間のディザスタリカバリは、インプレースリストアをサポートします。インプレースリストアを使用すると、ECS ホスト上のデータがクリアされます。このオプションは注意して使用してください。
サーバーが逆方向リアルタイムレプリケーション状態になったら、[操作] 列で を選択します。
[フェイルバック] パネルで、[CPU] と [メモリ] の情報を入力します。[リカバリネットワーク] と [IP アドレス] を選択します。[リカバリ後のスクリプト] を編集します。
フェイルバックが完了したら、[操作] 列で を選択して、保護対象サーバーを再度登録します。