模型压缩 - 人工智能平台 PAI

模型压缩通过量化等技术减小模型体积和计算复杂度，同时尽量保持预测性能。适用于GPU显存有限或需要降低部署成本的场景。

简介

PAI-Model Gallery支持基于Weight-only Quantization技术的模型量化，通过MinMax-8Bit或MinMax-4Bit策略将模型浮点数参数量化到8位或4位整数表示，减小模型体积、降低显存占用，同时保持较好的性能。

配置压缩任务。

关键配置如下：

参数	说明
压缩方式	当前仅支持基于Weight-only Quantization技术的模型量化方法，即将模型的权重参数转换到更低的bit位，降低模型推理的显存占用。
压缩策略	MinMax-8Bit：使用最小值-最大值（min-max）缩放方法将模型量化到8位整数表示。 MinMax-4Bit：使用最小值-最大值（min-max）缩放方法将模型量化到4位整数表示。

其他参数配置同模型部署及训练。

在PAI-Model Gallery > 任务管理 > 压缩任务中查看压缩任务。