新功能/规格

人工智能平台 PAI - 模型权重服务功能发布

模型权重服务功能,大幅降低冷启动与扩容时长,解决模型加载耗时过长的业界难题,破解LLM超大规模部署效能瓶颈。
适用客户

AI推理/大模型服务/AIGC的客户群。

国际站产品文档

https://www.alibabacloud.com/help/en/pai/user-guide/model-weight-service?spm=a3c0i.23458820.2359477120.1.6c136e9b9IA5u2

新增功能/规格

随着大语言模型(LLM)参数量呈现指数级增长,如开源模型 DeepSeekV3-671B 已达 700GB+ 规模,模型加载耗时已成为影响推理服务效率的关键瓶颈,在弹性扩容、多实例部署等场景因模型加载耗时过长,影响了服务扩展的敏捷性和模型部署的效率。 针对上述挑战,阿里云人工智能平台 PAI 创新性地发布了模型权重服务功能,大幅降低冷启动与扩容时长,解决模型加载耗时过长的业界难题,破解LLM超大规模部署效能瓶颈。 PAI 模型权重服务的核心技术特征包括: 分布式缓存架构:利用节点内存资源构建权重缓存池。 高速传输机制:基于 RDMA 的机间互联实现低延迟数据传输。 智能分片策略:动态感知网络拓扑的智能分片算法。 内存共享优化:实现单机多进程间零拷贝权重共享。 权重智能预取:利用闲置时间提前预读模型权重。 高效缓存策略:保证模型分片在实例间负载均衡。 实际部署表明,该方案在超大规模实例集群中有显著效率提升。对于传统拉取模式,扩容速度 10 倍提升;带宽利用率提高60%+;服务冷启动时间缩短至秒级。

阿里云第七代ECS正式发售

整体算力提升40%,芯片级安全防护。
搭载第三代英特尔®至强®可扩展处理器(代号"IceLake")。

  • 销售支持

    1对1售前咨询

  • 售后支持计划

    24/7 技术支持 每季度 6 个免费工单 更快的服务响应时间

  • 阿里云为客户提供专业、灵活的支持服务,以满足您多样化的业务需求。