云消息队列 RocketMQ 版支持故障演练功能,能够模拟可用区级别的容灾过程,帮助您提升服务的高可用性和稳定性。
背景信息
可用区(AZ)故障可能导致部署在该区域的服务实例不可用,从而引发局部乃至全局服务中断或者不可用等问题。云消息队列 RocketMQ 版支持多可用区部署,并提供故障演练功能。通过选择云消息队列 RocketMQ 版实例其中一个可用区进行服务的停止与恢复,模拟可用区故障,主动识别服务系统的脆弱环节,从而提前修复相关问题,实现防患于未然,确保在真实故障发生时,服务能够正常稳定运行。
使用限制
仅支持Serverless系列的独享版和非Serverless系列(包年包月、按量付费)铂金版。
注意事项
-
在故障演练过程中可能会出现以下几种情况:
-
客户端连接中断,并进行重连。
-
堆积消息的投递会延迟。
-
服务恢复后出现消息重复的情况。
-
顺序Topic中的消息可能会出现短暂乱序的情况。
-
-
请确保集群的容量充足,以避免在可用区节点服务停止后,剩余容量无法满足业务需求的问题。
-
当实例已创建演练任务且演练尚未结束时,该实例的升降配和编辑功能将被禁用。
操作流程
操作步骤
步骤一:创建演练任务
-
登录云消息队列 RocketMQ 版控制台,在顶部菜单栏选择地域,如华东1(杭州)。
-
在左侧导航栏选择。
-
在故障演练页面,单击创建任务。
-
在创建任务面板,配置以下参数,然后单击确定。
-
任务名称:输入演练任务名称。
-
实例:选择需要演练的实例。
-
步骤二:停止服务
-
在故障演练页面,单击目标任务名称。
-
在故障演练详情页面,选择一个可用区,然后单击停止服务。
步骤三:验证应用服务
验证应用服务的可用性,识别问题并进行修复。
步骤四:恢复服务
-
在故障演练页面,单击目标任务名称。
-
在故障演练详情页面,单击恢复服务。
步骤五:结束演练
-
在故障演练页面,单击目标任务名称。
-
在故障演练详情页面,单击结束演练。