人工智能平台 PAI - EAS算力检测与容错功能发布
Sep 19 2025
人工智能平台 PAI适用客户
AI推理/大模型服务/AIGC的客户群。
新增功能/规格
随着MoE模型的总参数量从千亿量级增长到万亿,大模型推理服务的分布式部署的比例越来越高。在大规模部署分布式服务时可能会遇到以下问题: ● 资源故障导致服务终端与GPU资源浪费:在服务花费一定时间加载模型等初始化操作后,由于申请的资源存在故障,无法顺利开始推理,需要调查定位故障问题并重新提交部署。该过程中会导致GPU资源的浪费。 ● 性能问题定位与测试手段不足:在推理服务运行阶段,如果发现模型推理性能下降,可能是慢节点导致的,但缺少快捷有效的问题定位方法。此外,资源组内机器的GPU算力和通信性能测试也欠缺便捷且可靠的基准程序。 针对上述问题,EAS+AIMaster,在服务的实际部署前针对集群的算力拓扑提供了算力健康检测SanityCheck功能,旨在对分布式推理服务的算力资源健康度与性能进行检查。在创建EAS分布式推理服务时可以开启该功能,健康检测会对参与推理的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,有效减少服务推理初期遇到问题的可能性,提升推理部署成功率。此外,在检测完成后,会给出有关GPU算力以及通信性能的检测报告,可以帮助识别和定位可能导致推理性能下降的问题元素,整体提升问题诊断的效率。