ECS データのバックアップと高可用性アーキテクチャ - Elastic Compute Service

誤ってデータを削除するなどの論理的エラー、または可用性ゾーン（AZ）やリージョン単位の障害といった物理的障害に対応するため、ECS では「データの耐久性」および「業務継続性」という 2 つの核となる観点から構成される階層型保護戦略を提供しています。データのバックアップと復元については、ファイルレベルからブロックストレージレベルまで、細かい粒度での復旧オプションを提供します。業務継続性については、可用性ゾーン単位およびリージョン単位の障害に耐える高可用性アーキテクチャを提供し、さまざまな業務継続性目標（BCO）を満たすクラウドアーキテクチャの構築を支援します。

クラウド事業の回復力強化

クラウドベースのアプリケーションを構築する際には、「データの耐久性」と「業務継続性」が安定した運用を実現する 2 本柱となります。データの耐久性は、論理的エラーまたは物理的損傷に対するバックアップ機構を通じて、コアデータの復旧可能性を確保します。業務継続性は、冗長なアーキテクチャおよび自動化された運用により、単一障害点（SPOF）を排除し、サービス可用性を維持します。事業フェーズ、予算、およびディザスタリカバリ要件に応じて、以下のオプションから選択してください：

コスト重視でリソースが限られている場合：主に日次データ保護が必要
複雑なアーキテクチャ変更は不要です。費用対効果の高いデータバックアップ機構の構築に注力してください。データのバックアップとリカバリをご参照ください。
成長期にある事業：データセンター障害への耐性が必要
事業が拡大するにつれて、長時間のサービス中断は大きな損失を招きます。可用性ゾーン（データセンター）単位の障害に対処するため、マルチゾーン高可用性デプロイメントを実装します。ある可用性ゾーンが利用不可になった場合、システムは自動的に同一リージョン内の健全な可用性ゾーンへトラフィックをルーティングします。
都市規模の災害への耐性が必要な事業
金融サービス、ゲーム、越境EC などでは、単一リージョンにおける高可用性では十分ではありません。自然災害や大規模ネットワーク障害などの極端な地域単位の障害にも耐えられるよう、クロスリージョン高可用性アーキテクチャを構築し、事業の生命線を守ります。

データのバックアップとリカバリ

データのバックアップとリカバリは、データの破損、誤った削除、インフラストラクチャ障害などによって引き起こされるデータ損失に対処します。

機能および保護範囲に基づき、柔軟に保護メカニズムを組み合わせます。
- スナップショット：クライアントのインストールを必要とせず、クラウドディスクのデータをバックアップします。
  スナップショットの種類および容量に基づき課金されます。詳細については、「スナップショットの課金」をご参照ください。
  - スナップショットの作成：定期的なスナップショットの作成を行います。誤って削除したデータやアプリケーションのロールバックに対応するため、必要に応じてロールバックを実行します。
    または、カスタムイメージの作成を行い、OS を置き換えることで復元します。
  - スナップショットのコピー：自動スナップショットポリシーを作成し、クロスリージョンレプリケーションを有効化して、リージョン単位の障害に対応します。障害発生時には、レプリケートされたスナップショットからデータディスクを作成し、スタンバイインスタンスにマウントします。
- ECS File Backup Basic Edition：ファイルレベルのバックアップを、リージョン内でクライアントをインストールして実施します。シンプルな復旧操作で削除されたファイルを迅速に復元できます。
  Alibaba Cloud アカウント（RAM ユーザーを含む）ごとに、すべてのリージョンで合計 100 GiB の無料クォータが共有されます。このクォータを超える使用量については、ECS にアタッチされたブロックストレージの総容量に基づき課金されます。詳細については、「file-backup-essential-edition-benefit-description」をご参照ください。
- クラウドディスク：クラウドディスクのネイティブ機能を活用し、ゾーン間／リージョン間のデータバックアップを実現します。
  - リージョナル ESSD：データは同一リージョン内の複数の可用性ゾーンにレプリケートされます。可用性ゾーン単位の障害発生時には、強制アタッチ機能を用いて、他の可用性ゾーン内のインスタンスにディスクをアタッチして復旧します。
    ディスク容量に基づき課金されます。詳細については、「ブロックストレージデバイス」をご参照ください。
  - 非同期レプリケーション：ブロックストレージのレプリケーション機能に基づき、別の可用性ゾーンまたはリージョンのディスクへディスクデータを非同期でレプリケートします。障害発生時には、手動フェイルオーバーをトリガーし、セカンダリディスクをスタンバイインスタンスにアタッチします。
    料金には、ターゲットディスクの容量課金が含まれます。クロスリージョンレプリケーションの場合、追加でディスクレプリケーション課金が発生します。
Recovery Point Objective (RPO) および Recovery Time Objective (RTO) の目標値を設定します。関係者とともにダウンタイムおよびデータ損失のコストを定量化し、業務継続性演習を通じて、復旧目標値の妥当性を定期的に検証します。
RPO：許容可能な最大データ損失量（時間単位で測定）。
RTO：障害発生から完全復旧までの最大所要時間。
重要
RPO および RTO はビジネス指標であり、技術的な保証ではありません。実際のエンドツーエンド値を推定してください。より厳しい目標値ほどコストが高くなります。

マルチゾーン高可用性

単一インスタンスによるデプロイメントでは可用性リスクがあります。ハードウェア障害やプロセスクラッシュなどの障害が発生すると、サービス中断が発生します。ALB を用いた可用性ゾーン間のマルチインスタンスデプロイメントを実施し、ヘルスチェックによる自動フェイルオーバーを実現します。

Application Load Balancer (ALB)：健全なインスタンスにトラフィックを分散します。ヘルスチェックにより、不健全なインスタンスはローテーションから除外されます。ALB は Auto Scaling と連携して障害インスタンスを交換し、新しいインスタンスをオンライン化します。
Relational Database Service (RDS)：RDS の高可用性エディションでは、可用性ゾーンを跨いだプライマリ／スタンバイアーキテクチャを採用し、データの永続性を確保します。

さらにパフォーマンスおよびコストを最適化するには：

画像やスクリプトなどの静的ファイルを Object Storage Service (OSS) に保存し、コンテンツデリバリーネットワーク (CDN) を活用してアクセス速度を向上させます。
Auto Scaling (ESS) を活用してトラフィックの変動に対応します。ESS は需要に応じて容量を調整し、障害インスタンスを自動的に交換します。

クイックスタート

マルチゾーン間トラフィック分散：クラウド上の高可用性アーキテクチャ — 可用性ゾーンを跨いで ALB をデプロイし、可用性ゾーン単位の高可用性を実現します。
Auto Scaling による自己修復: 自動伸縮性と安定した配信- ALB と Auto Scaling を組み合わせることで、失敗したインスタンスを自動的に置き換え、需要に応じてスケールします。

クロスリージョン高可用性

事業を単一リージョンにデプロイしている場合、極端な自然災害や大規模ネットワーク障害によりリージョン全体のデータセンターが停止するリスクがあります。業務継続性を確保するため、クロスリージョン高可用性アーキテクチャを構築します。その基本方針は、冗長なシステム、グローバルトラフィック管理、およびデータ同期を活用し、ゾーン間高可用性（HA）をリージョン間へ拡張し、自動的なリージョンフェイルオーバーを実現することです。

Global Traffic Manager (GTM)：地理的位置またはレイテンシに基づきユーザーをルーティングします。ヘルスチェックにより各リージョンの状態を監視し、リージョン障害発生時には DNS 経由でトラフィックを健全なリージョンへリダイレクトします。
Data Transmission Service (DTS) ：アクティブ／アクティブ（ユニット単位）およびディザスタリカバリのシナリオにおいて、リアルタイムの双方向データ同期をリージョン間でサポートします。

さらにパフォーマンスおよびコストを最適化するには：

画像やスクリプトなどの静的ファイルを Object Storage Service (OSS) に保存し、コンテンツデリバリーネットワーク (CDN) を活用してアクセス速度を向上させます。
Auto Scaling (ESS) を活用してトラフィックの変動に対応します。ESS は需要に応じて容量を調整し、障害インスタンスを自動的に交換します。

クイックスタート

クロスリージョン高可用性：GTM によるオフサイトディザスタリカバリの実装方法 — GTM を用いてリージョン間のトラフィックをルーティングし、リージョン単位のインシデント発生時でもサービス可用性を維持します。

業務継続性演習

ソリューションを導入後は、定期的に演習を実施してください：

障害をシミュレートし、完全復旧を実行します。実測された RPO および RTO を目標値と比較します。
フェイルオーバー先の可用性ゾーンまたはリージョンにおいて、クォータ、ネットワーク設定、セキュリティポリシーが準備済みであることを確認します。
復旧後に、データの完全性および整合性、およびアプリケーションの正常動作を検証します。