全部产品
Search
文档中心

云服务器 ECS:ECS数据备份机制与高可用架构

更新时间:Apr 01, 2026

为应对人为误删等逻辑错误,可用区或地域中断等物理故障,ECS提供了分层的保护方案,覆盖数据持久性业务连续性两大核心。在数据备份与恢复层面,覆盖从文件级到块存储级的恢复粒度;在业务连续性层面,则提供抵御可用区级乃至地域级故障的高可用架构。以帮助构建满足不同业务连续性目标的云上架构。

提升云上业务韧性

在构建云上业务时,数据持久性业务连续性是保障业务稳定运行的两大基石。前者通过数据备份机制,保障在发生逻辑错误或物理损坏时核心数据可恢复;后者通过冗余架构和自动化运维消除单点故障,保障服务持续可用。根据业务发展阶段、预算及容灾需求,可按需选择:

  • 成本敏感,人力有限,核心需求为日常数据保护。

    无需对现有业务架构进行复杂改造,重点构建低成本的数据备份机制。可参考数据备份与恢复

  • 业务进入成长期,要求抵御机房级故障,保障业务连续性。

    随着业务增长,任何长时间的服务中断都将带来巨大损失。为防范可用区(机房)级别的故障,建议调整业务架构,实施跨可用区高可用部署。当单一可用区整体不可用时,系统可将业务流量自动切换至同地域内正常运行的可用区。

  • 业务要求抵御城市级灾难。

    对于金融、游戏、跨国电商等业务,单一地域的高可用已无法满足需求。需构建跨地域高可用架构,以抵御自然灾害、大规模网络中断等极端地域级灾难,守住业务生命线。

数据备份与恢复

数据备份与恢复可解决因数据损坏、人为误删或基础设施故障等导致的云盘数据丢失问题。

  1. 根据功能特性和防护范围灵活组合防护手段

    • 快照:无需安装客户端即可备份云盘数据。

      根据功能类型及快照容量收取快照费用
    • ECS文件备份基础版:通过安装客户端在本地域下实现文件备份,异常时可以恢复指定目标文件和目录,恢复操作简便。

      每个用户的阿里云(主账号)及其下的RAM用户在全地域共享100 GiB免费额度。超出部分按ECS挂载的块存储总容量计费。详细请参见文件备份基础版的权益说明
    • 云盘:基于云盘自身特性或能力实现跨可用区/地域数据备份。

      • ESSD 同城冗余云盘:数据在同一个地域的多个可用区中存有冗余副本。发生可用区级别故障时,可以强制挂载至不同可用区的备实例进行恢复。

        根据云盘容量收取云盘容量费用
      • 云盘异步复制:基于云盘数据复制能力,将云盘的数据异步复制到其他可用区/地域内的另一块云盘中。发生故障时需手动故障切换后,将从盘挂载至备实例以恢复数据,实现跨可用区/地域备份。

        费用包含目标云盘的容量费用,若为跨地域复制,还需收取云盘复制费用
  2. 确定业务的RPO(Recovery Point Objective)和RTO(Recovery Time Objective)要求:与业务方协商,量化业务中断和数据丢失带来的损失,确定可接受的RPO和RTO目标值,并定期进行业务连续性演练验证是否满足需求。

    RPO:灾难发生时,允许丢失的最大数据量的时间间隔
    RTO:灾难发生后,从系统宕机到业务完全恢复所需的最长时间
    重要

    RPO和RTO是业务指标而非技术指标,实际端到端值需自行估算。应根据业务中断造成的实际损失来确定目标值。RPO和RTO越小,所需成本越高。

跨可用区高可用

在单个实例上部署应用存在可用性风险。若应用仅运行在一个实例上,一旦发生故障(如硬件问题或进程崩溃),将导致业务中断。建议采用跨可用区多实例部署与负载均衡(ALB) 提升可用性,通过健康检查机制,在异常时实现故障自动转移。

  • 应用型负载均衡(ALB):负责将流量均衡分发至健康的后端 ECS 实例。通过健康检查探测后端服务状态,发现异常实例后会停止向其转发流量,可与 ESS 联动,实现故障实例的移除与新实例的接入。

  • 云数据库(RDS)RDS的高可用系列,采用主备架构,支持跨可用区部署,可负责数据的持久化。

为进一步优化性能与成本:

  • 建议将静态文件(如图片、脚本等)存放于对象存储OSS,并利用内容分发网络CDN,既能提升访问速度,又能减轻 ALB 和服务的压力。

  • 若业务存在明显的流量波动,实例高峰期容量不足,低谷期资源闲置。建议借助弹性伸缩(ESS)根据监控指标动态调整实例数量,其集成的健康检查机制可自动识别并替换故障实例。

image

相关教程

  • 跨可用区流量分发:参考云上高可用架构,通过 ALB 将流量分发至多个可用区,实现基础的可用区级高可用。

  • 弹性伸缩自愈架构:参考自动弹性,稳定交付,结合 ALB 与弹性伸缩组,自动替换故障实例并按需扩缩容,构建自愈型架构。

跨地域高可用

若业务部署于单个地域,在面对极端自然灾害或大规模网络中断引发的地域下机房全线瘫痪时,将面临业务全线中断的风险。为保障业务连续性,需构建跨地域高可用架构。其核心思路是,在跨可用区高可用架构的基础上,通过在不同地域部署冗余业务系统,利用全局流量管理与数据实时同步能力,实现地域级故障的自动隔离与流量切换。

  • 全局流量管理(GTM):可将用户请求分配至不同地域,支持用户就近接入、高并发负载均衡、健康检查与故障切换,从而实现跨地域高可用。

  • 数据传输服务(DTS)用于跨地域数据实时同步,支持两个数据库之间的双向数据实时同步,适用于异地多活(单元化)、数据异地容灾等多种应用场景。

为进一步优化性能与成本:

  • 建议将静态文件(如图片、脚本等)存放于对象存储OSS,并利用内容分发网络CDN,既能提升访问速度,又能减轻 ALB 和服务的压力。

  • 若业务存在明显的流量波动,实例高峰期容量不足,低谷期资源闲置。建议借助弹性伸缩(ESS)根据监控指标动态调整实例数量,其集成的健康检查机制可自动识别并替换故障实例。

image

相关教程

参考GTM如何实现异地容灾,借助 GTM 实现跨地域流量调度,实现地域级高可用架构。

业务连续性演练

方案配置完成后,建议定期演练,验证方案的有效性:

  1. 验证恢复流程:模拟故障场景,执行完整的恢复流程,记录实际的RPO和RTO是否满足目标。

  2. 检查恢复环境:确认目标可用区或地域的资源配额、网络配置和安全策略能支撑业务切换。

  3. 测试数据完整性:恢复后验证数据的完整性和一致性,确保应用可正常运行。