ECS資料備份機制與高可用架構 - Elastic Compute Service

為應對人為誤刪等邏輯錯誤，可用性區域或地區中斷等物理故障，ECS提供了分層的保護方案，覆蓋資料持久性及商務持續性兩大核心。在資料備份與恢複層面，覆蓋從檔案級到Block Storage級的恢複粒度；在商務持續性層面，則提供抵禦可用性區域級乃至地區級故障的高可用架構。以協助構建滿足不同商務持續性目標的雲上架構。

提升雲上業務韌性

在構建雲上業務時，資料持久性與商務持續性是保障業務穩定啟動並執行兩大基石。前者通過資料備份機制，保障在發生邏輯錯誤或物理損壞時核心資料可恢複；後者通過冗餘架構和自動化營運消除單點故障，保障服務持續可用。根據業務發展階段、預算及容災需求，可按需選擇：

成本敏感，人力有限，核心需求為日常資料保護。
無需對現有業務架構進行複雜改造，重點構建低成本的資料備份機制。可參考資料備份與恢複。
業務進入成長期，要求抵禦機房級故障，保障商務持續性。
隨著業務增長，任何長時間的服務中斷都將帶來巨大損失。為防範可用性區域（機房）層級的故障，建議調整業務架構，實施跨可用性區域高可用部署。當單一可用性區域整體不可用時，系統可將業務流量自動切換至同地區內正常啟動並執行可用性區域。
業務要求抵禦城市級災難。
對於金融、遊戲、跨國電商等業務，單一地區的高可用已無法滿足需求。需構建跨地區高可用架構，以抵禦自然災害、大規模網路中斷等極端地區級災難，守住業務生命線。

資料備份與恢複

資料備份與恢複可解決因資料損毀、人為誤刪或基礎設施故障等導致的雲端硬碟資料丟失問題。

根據功能特性和防護範圍，靈活組合防護手段。
- 快照：無需安裝用戶端即可備份雲端硬碟資料。
  根據功能類型及快照容量收取快照費用。
  - 建立快照：可建立自動快照策略定期在本地區下備份雲端硬碟資料，異常時可以利用快照復原雲端硬碟，以應對日常資料誤刪、業務回退。
    也可建立自訂鏡像對整個ECS執行個體備份，異常時通過更換作業系統恢複。
  - 複製快照：通過建立自動快照策略並啟用跨地區複製，發生故障時可使用複製的快照建立資料盤並掛載至備執行個體恢複資料，以應對地區級別故障。
- ECS檔案備份基礎版：通過安裝用戶端在本地區下實現檔案備份，異常時可以恢複指定目標檔案和目錄，恢複操作簡便。
  每個使用者的阿里雲（主帳號）及其下的RAM使用者在全地區共用100 GiB免費額度。超出部分按ECS掛載的Block Storage總容量計費。詳細請參見檔案備份基礎版的權益說明。
- 雲端硬碟：雲端式盤自身特性或能力實現跨可用性區域/地區資料備份。
  - ESSD 同城冗餘雲端硬碟：資料在同一個地區的多個可用性區域中存有冗餘副本。發生可用性區域層級故障時，可以強制掛載至不同可用性區域的備執行個體進行恢複。
    根據云盤容量收取雲端硬碟容量費用。
  - 雲端硬碟非同步複製：雲端式盤資料複製能力，將雲端硬碟的資料非同步複製到其他可用性區域/地區內的另一塊雲端硬碟中。發生故障時需手動故障切換後，將從盤掛載至備執行個體以恢複資料，實現跨可用性區域/地區備份。
    費用包含目標雲端硬碟的容量費用，若為跨地區複製，還需收取雲端硬碟複製費用。
確定業務的RPO(Recovery Point Objective)和RTO(Recovery Time Objective)要求：與業務方協商，量化業務中斷和資料丟失帶來的損失，確定可接受的RPO和RTO目標值，並定期進行商務持續性演練驗證是否滿足需求。
RPO：災難發生時，允許丟失的最巨量資料量的時間間隔。
RTO：災難發生後，從系統宕機到業務完全恢複所需的最長時間。
重要
RPO和RTO是業務指標而非技術指標，實際端到端值需自行估算。應根據業務中斷造成的實際損失來確定目標值。RPO和RTO越小，所需成本越高。

跨可用性區域高可用

在單個執行個體上部署應用存在可用性風險。若應用僅運行在一個執行個體上，一旦發生故障（如硬體問題或進程崩潰），將導致業務中斷。建議採用跨可用性區域多執行個體部署與負載平衡（ALB） 提升可用性，通過健全狀態檢查機制，在異常時實現故障自動轉移。

應用型負載平衡（ALB）：負責將流量均衡分發至健康的後端 ECS 執行個體。通過健全狀態檢查探測後端服務狀態，發現異常執行個體後會停止向其轉寄流量，可與 ESS 聯動，實現故障執行個體的移除與新執行個體的接入。
雲資料庫（RDS）：RDS的高可用系列，採用主備架構，支援跨可用性區域部署，可負責資料的持久化。

為進一步最佳化效能與成本：

建議將靜態檔案（如圖片、指令碼等）存放於Object Storage Service，並利用內容分發網路CDN，既能提升訪問速度，又能減輕 ALB 和服務的壓力。
若業務存在明顯的流量波動，執行個體高峰期容量不足，低穀期資源閑置。建議藉助Auto Scaling（ESS），根據監控指標動態調整執行個體數量，其整合的健全狀態檢查機制可自動識別並替換故障執行個體。

跨地區高可用

若業務部署於單個地區，在面對極端自然災害或大規模網路中斷引發的地區下機房全線癱瘓時，將面臨業務全線中斷的風險。為保障商務持續性，需構建跨地區高可用架構。其核心思路是，在跨可用性區域高可用架構的基礎上，通過在不同地區部署冗餘業務系統，利用全域流量管理與資料即時同步能力，實現地區級故障的自動隔離與流量切換。

全域流量管理（GTM）：可將使用者請求分配至不同地區，支援使用者就近接入、高並發負載平衡、健全狀態檢查與故障切換，從而實現跨地區高可用。
Data Transmission Service（DTS）：用於跨地區資料即時同步，支援兩個資料庫之間的雙向資料即時同步，適用於異地多活（單元化）、資料異地容災等多種應用情境。

為進一步最佳化效能與成本：

建議將靜態檔案（如圖片、指令碼等）存放於Object Storage Service，並利用內容分發網路CDN，既能提升訪問速度，又能減輕 ALB 和服務的壓力。
若業務存在明顯的流量波動，執行個體高峰期容量不足，低穀期資源閑置。建議藉助Auto Scaling（ESS），根據監控指標動態調整執行個體數量，其整合的健全狀態檢查機制可自動識別並替換故障執行個體。

商務持續性演練

方案配置完成後，建議定期演練，驗證方案的有效性：

驗證恢複流程：類比故障情境，執行完整的恢複流程，記錄實際的RPO和RTO是否滿足目標。
檢查恢複環境：確認目標可用性區域或地區的資源配額、網路設定和安全性原則能支撐業務切換。
測試資料完整性：恢複後驗證資料的完整性和一致性，確保應用可正常運行。

Elastic Compute Service：ECS資料備份機制與高可用架構