MaxCompute同城容灾用于应对运营商网络故障、IDC停电、机房设施故障、集群故障等场景。通过开启多AZ存储容灾和多AZ计算高可用,可有效降低业务停机时间,满足业务保障需求和行业合规要求。
功能介绍
MaxCompute同城容灾支持将数据存储服务和计算服务的可用性从单一可用区(Availability Zone)扩展到同城三个可用区,并利用同城三个可用区之间的物理隔离特性与低延迟的网络连接,提供了跨数据中心的数据实时同步和故障隔离能力,确保业务系统不会因单一数据中心故障而中断服务,从而增强客户业务的抗风险能力。
MaxCompute同城容灾包含多AZ存储容灾和多AZ计算高可用,详情介绍如下:
多AZ存储:是以项目(Project)为单位开启,支持将存量数据从单一可用区本地存储转换为三个可用区冗余存储,增量数据直接同步写入到三个可用区。当遇到AZ级故障时,存储容灾可以保障数据读取和写入服务不中断,数据不丢失,满足数据恢复点目标RPO=0的需求。多AZ存储支持保存项目中的全量用户数据,包括元数据、用户权限、全部表类型、物化视图、UDF、资源(Resource)等。
多AZ计算高可用:将多AZ高可用计算资源与开启数据多AZ存储的项目绑定,实现数据存储和计算的整体同城容灾能力。您可以在多个AZ中预留充足的多AZ高可用计算资源,当遇到AZ级故障时,计算资源会自动从故障AZ切换到可正常提供服务的AZ。多AZ高可用计算资源支持运行全部作业类型,包括SQL Task、MaxFrame、Cupid Task、MapReduce Task等。
灾难恢复指引
实现同城容灾功能后当发生AZ级故障时,将会进行以下恢复操作:
您会收到阿里云MaxCompute关于故障情况的通知。
服务端会立即在可正常提供服务的AZ调配计算资源,系统自检项目中表、分区、权限等数据的完整性和可用性。
客户端已提交的作业会出现运行失败的情况,需要您重新提交作业,访问MaxCompute的配置无需修改,如Endpoint、认证信息、project_name、quota_name等。
作业恢复运行后,您需继续关注上层业务运行情况,确保业务已经整体恢复正常。
应用场景
金融行业
保障银行的金融服务可以不间断的分析和处理业务交易数据,并避免因数据中心的故障而导致服务中断。
关键基础设施
保障电力、水务以及交通等数据分析系统,确保因数据中心故障而导致的社会民生依赖的关键信息服务不发生中断。
客户价值
数据冗余备份。
降低业务停机时间。
满足行业合规要求。
提供更好的上层业务客户体验。
使用限制
目前仅华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、华东 2 金融云、中国香港、新加坡、印度尼西亚(雅加达)地域支持同城容灾。
计费说明
多AZ存储开启后,MaxCompute会按照多AZ存储模式进行计费。关于多AZ存储计费详情,请参见多AZ存储计费。
实现多AZ计算高可用时,需要购买多AZ高可用计算资源。关于多AZ高可用计算资源计费详情,请参见计算费用(包年包月)。
使用说明
您需要开启多AZ存储容灾和多AZ计算高可用能力,才能实现存储和计算的整体同城容灾能力。
开启多AZ存储容灾
登录MaxCompute控制台,在左上角选择地域。
在左侧导航栏,选择
。在同城容灾页面,单击新增同城容灾。
在弹出的对话框中,选择需要进行存储容灾的MaxCompute项目并勾选复选框。
单击确定。
创建完成后,该项目数据将开始进行存储容灾准备,即将单可用区(AZ)数据迁移至三可用区(3AZ)存储。数据准备过程预计需要两天,完成后项目将具备存储容灾能力。
说明在存储容灾准备的过程中,作业运行不受影响,业务保持无感知状态。
在存储容灾准备的过程中,历史表分区数据正在进行流式写入时,存储容灾数据准备任务将等待至写入提交后才启动。建议客户定期(每天、每周)切换至新分区进行数据写入,以确保所有表和分区完成多AZ存储转换。
开启存储容灾前产生的本地备份数据、TimeTravel数据留在原可用区中本地存储;开启存储容灾后产生的本地备份数据、TimeTravel数据会分布在三个可用区中冗余存储。
开启多AZ计算高可用
开启多AZ计算高可用能力,需要购买多AZ高可用计算资源并将目标项目的默认计算Quota配置为多AZ高可用计算资源。
登录MaxCompute控制台,在左上角选择地域。
在左侧导航栏,选择
。在Quota管理页面,单击新购Quota。
在资源购买页面,配置购买参数,其中关键参数介绍如下。
参数名称
说明
规格类型
选择多AZ高可用计算资源。
多AZ高可用计算资源单元
选择您要购买的CU数。
说明目前是50 CU起售,增量购买需要是1的整数倍。
单击立即购买,根据界面提示勾选服务协议并支付费用,完成购买。
购买成功后,您可以在Quota管理页面,查看已创建的多AZ高可用计算资源。
将目标项目的默认计算Quota配置为多AZ高可用计算资源。
选择
。单击目标项目操作列中的管理。
在参数配置页签,单击基础信息后的编辑。
将默认计算Quota配置为多AZ高可用计算资源,然后单击提交。
容灾资源观测
您可以在容灾资源观测页面查看项目容灾的整体状态、可用区(AZ)监控信息和表数据详情。
登录MaxCompute控制台,在左上角选择地域。
在左侧导航栏,选择
。在同城容灾页面,单击已启用容灾的目标项目名称,进入项目级容灾资源观测页面。
您可以观测到以下信息:
基本信息
查看当前项目容灾整体状态。如可用区(AZ)、管控信息容灾、当前状态、容灾创建时间和上次故障切换时间。
说明当前状态为准备中,表示数据正在做多AZ存储转换。
当前状态为正常,表示数据已经在多AZ中存储,具备AZ级存储容灾能力。
可用区(AZ)监控
展示多AZ高可用计算的监控信息,用户可以查看购买并绑定到项目的多AZ高可用计算资源所在的AZ信息。
可用区AZ使用中:表示用户作业运行在该AZ。
可用区AZ预留:表示如果用户作业运行的AZ出现故障计算资源将切换到该AZ。
表数据详情
您可以根据Schema名称和表名精确查询目标表。默认不选,则展示该项目下所有表数据信息。
列名称
说明
Schema名称
项目下Schema。
表名称
表名称信息。
是否分区表
该表是否为分区表。
数据最后更新时间
该表最后一次数据更新时间。
数据量
该表的数据量大小。
数据分布
该表数据分布可用区。
可用区状态为准备中:表示数据正在做多AZ存储转换。
可用区状态为使用中:表示数据已经在多AZ中冗余存储。
操作
若为分区表,单击查看分区详情,获取该分区表各分区的数据最后更新时间、数据量和数据分布。
其他操作
灾难恢复演练
若您有灾难恢复演练需求,MaxCompute提供项目级灾难模拟和逃逸的演练方案,具体流程如下。
用户需先提交工单到阿里云申请进行灾难恢复演练,提供Region、Project Name、Quota Name、演练时间段信息,演练时间建议选择业务低峰时进行。
工单经过阿里云审核通过后,MaxCompute会在项目级容灾资源观测页面提供故障切换按钮,用户可根据系统提示自助切换计算资源运行的可用区(AZ),实现灾难逃逸,逃逸后新提交的作业将立即执行,因切换AZ过程造成的执行失败作业需要用户手动重试。
上述操作仅用于演练场景,真实AZ级灾难发生时,系统将自动完成计算资源的故障切换。
取消容灾
如果需要取消容灾,您可以在同城容灾页面,单击目标项目操作列中的取消容灾,按照提示输入项目名称再单击确定。
取消容灾后项目数据重新分布到单可用区本地存储。
取消容灾属于高危操作,取消容灾后项目将立刻失去容灾能力,请谨慎评估。