神龙AI加速引擎AIACC能够适用于所有AI训练场景和AI推理场景。
AI训练的典型业务场景
AI训练常应用于以下典型业务场景:
- 图像分类、图像识别
- 常用框架:MXNet。
- 常用存储:并行文件存储系统CPFS。
- CTR预估
- 常用框架:TensorFlow。
- 模型:Wide&Deep模型。
- 常用存储:文件系统HDFS。
- NLP自然语言处理
- 常用框架:TensorFlow。
- 模型:Transformer、Bert模型。
- 常用存储:并行文件存储系统CPFS。
AI推理的典型业务场景
AI推理常应用于以下典型业务场景:
- 视频超分推理
- 模型:超分模型。
- 配置:T4 GPU。
- 进行了如下性能优化,将性能提升至原来的2.7倍。
- 视频解码移植到GPU。
- 前后处理移植到GPU。
- 自动凑满一次运算所需的数据集大小。
- 卷积的深度优化。
- 图像合成在线推理
- 模型:GAN模型。
- 配置:T4 GPU。
- 进行了如下性能优化,将性能提升至原来的4倍。
- 前后处理移植到GPU。
- 自动凑满一次运算所需的数据集大小。
- 卷积的深度优化。
- CTR预估推理
- 模型:Wide&Deep模型。
- 配置:M40 GPU。
- 进行了如下性能优化,将性能提升至原来的6.1倍。
- 流水线优化。
- 模型拆分。
- 子模型分别优化。
- 自然语言处理推理
- 模型:Bert模型。
- 配置:T4 GPU。
- 进行了如下性能优化,将性能提升至原来的3.3倍。
- 前后处理流水线优化。
- 自动凑满一次运算所需的数据集大小。
- Kernel深入优化。