新功能/规格

人工智能平台 PAI - EAS算力检测与容错功能发布

EAS算力检测与容错功能对参与推理的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,有效减少服务推理初期遇到问题的可能性,提升推理部署成功率。
适用客户

AI推理/大模型服务/AIGC的客户群。

新增功能/规格

随着MoE模型的总参数量从千亿量级增长到万亿,大模型推理服务的分布式部署的比例越来越高。在大规模部署分布式服务时可能会遇到以下问题: ● 资源故障导致服务终端与GPU资源浪费:在服务花费一定时间加载模型等初始化操作后,由于申请的资源存在故障,无法顺利开始推理,需要调查定位故障问题并重新提交部署。该过程中会导致GPU资源的浪费。 ● 性能问题定位与测试手段不足:在推理服务运行阶段,如果发现模型推理性能下降,可能是慢节点导致的,但缺少快捷有效的问题定位方法。此外,资源组内机器的GPU算力和通信性能测试也欠缺便捷且可靠的基准程序。 针对上述问题,EAS+AIMaster,在服务的实际部署前针对集群的算力拓扑提供了算力健康检测SanityCheck功能,旨在对分布式推理服务的算力资源健康度与性能进行检查。在创建EAS分布式推理服务时可以开启该功能,健康检测会对参与推理的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,有效减少服务推理初期遇到问题的可能性,提升推理部署成功率。此外,在检测完成后,会给出有关GPU算力以及通信性能的检测报告,可以帮助识别和定位可能导致推理性能下降的问题元素,整体提升问题诊断的效率。

阿里云第七代ECS正式发售

整体算力提升40%,芯片级安全防护。
搭载第三代英特尔®至强®可扩展处理器(代号"IceLake")。

  • 销售支持

    1对1售前咨询

  • 售后支持计划

    24/7 技术支持 每季度 6 个免费工单 更快的服务响应时间

  • 阿里云为客户提供专业、灵活的支持服务,以满足您多样化的业务需求。