全部产品
Search
文档中心

人工智能平台 PAI:模型压缩

更新时间:Jun 25, 2026

模型压缩通过量化等技术减小模型体积和计算复杂度,同时尽量保持预测性能。适用于GPU显存有限或需要降低部署成本的场景。

简介

PAI-Model Gallery支持基于Weight-only Quantization技术的模型量化,通过MinMax-8Bit或MinMax-4Bit策略将模型浮点数参数量化到8位或4位整数表示,减小模型体积、降低显存占用,同时保持较好的性能。

压缩模型

  1. 训练模型。

    压缩功能仅支持训练后的模型,因此需要先完成模型训练。详情请参见模型部署及训练

  2. 待模型训练完成之后,在任务详情页单击右上角压缩

    image

  3. 配置压缩任务。

    关键配置如下:

    参数

    说明

    压缩方式

    当前仅支持基于Weight-only Quantization技术的模型量化方法,即将模型的权重参数转换到更低的bit位,降低模型推理的显存占用。

    压缩策略

    • MinMax-8Bit:使用最小值-最大值(min-max)缩放方法将模型量化到8位整数表示。

    • MinMax-4Bit:使用最小值-最大值(min-max)缩放方法将模型量化到4位整数表示。

    其他参数配置同模型部署及训练

  4. 单击压缩

    页面跳转到任务详情页面,可查看压缩任务的基本信息、实时状态和任务日志。

查看压缩任务

PAI-Model Gallery > 任务管理 > 压缩任务中查看压缩任务。

image

后续操作